Dieses KI-Modell kennt nur das 19. Jahrhundert
Ein Entwickler hat ein Sprachmodell gebaut, das ausschließlich auf Texten vor 1900 trainiert wurde. Kein Internet, kein Reddit, keine modernen Daten — nur 28.000 Bücher aus der Viktorianischen Ära.
Was ist Mr. Chatterbox?
Trip Venturella hat mit „Mr. Chatterbox" ein LLM veröffentlicht, das komplett from scratch trainiert wurde. Die Trainingsdaten: Ein Korpus der British Library mit Texten von 1837 bis 1899. Nichts danach. Punkt.
Zahlenbox
- 28.000+** — viktorianische Texte im Trainingskorpus
- 1837–1899** — der exakte Zeitraum der Trainingsdaten
- 0** — moderne Texte im Training
- 100%** — Open Source, lokal ausführbar
Warum das interessant ist
Das Modell weiß nicht, was ein Smartphone ist. Es kennt keinen Weltkrieg, kein Internet, keine Relativitätstheorie. Der gesamte Wortschatz, jede Idee, jede Referenz stammt aus dem viktorianischen England.
✅ Pro
- Komplett transparent — nur gemeinfreie Texte, null Copyright-Probleme
- Lokal auf dem eigenen Rechner lauffähig
- Zeigt, dass man LLMs auch ohne Milliarden-Budget bauen kann
❌ Con
- Simon Willison nennt es selbst „weak" — das Ding ist kein GPT-Konkurrent
- Praktischer Nutzen tendiert gegen null
- Wer braucht ein Modell, das denkt, Queen Victoria regiert noch?
💡 Was das bedeutet
Mr. Chatterbox ist kein Produkt, sondern ein Experiment. Es beweist, dass die Trainingsdaten eines Modells dessen gesamte Weltsicht definieren. Wer verstehen will, warum moderne LLMs so ticken wie sie ticken, lernt hier mehr als aus jedem Benchmark-Paper.