KI frisst KI-Texte — und wird dümmer
Forscher haben mathematisch bewiesen, was viele ahnten: Wenn KI-Modelle von KI-generiertem Text lernen, geht die Qualität in den Keller.
Das Problem in 3 Sätzen
Das Internet füllt sich mit KI-Texten. Neue Modelle trainieren auf diesem Internet. Der Output wird flacher, uniformer, langweiliger — mit jeder Generation mehr.
Wie der Teufelskreis funktioniert
Das Team beschreibt zwei Kräfte, die auf den öffentlichen Textkorpus wirken:
- Drift:** Ungefiltertes Wiederverwenden von KI-Text macht die Sprache eintönig. Seltene Ausdrücke sterben aus. Übrig bleibt Einheitsbrei.
- Selektion:** Wenn Menschen aktiv filtern und kuratieren, lässt sich der Verfall bremsen. Aber nur bremsen — nicht stoppen.
💡 Was das bedeutet
Jedes neue LLM, das auf unkuratiertem Web-Text trainiert, erbt die Fehler seiner Vorgänger — und verstärkt sie. Das ist kein theoretisches Gedankenspiel. Das passiert jetzt, in Echtzeit, mit jedem Crawl. Wer hochwertige Trainingsdaten hat, sitzt auf Gold.
✅ Pro
- Erstes mathematisch exaktes Modell für den Effekt
- Zeigt klar: Kuratierung hilft messbar
- Open Access auf arXiv
❌ Con
- Rein theoretisch, keine Experimente an echten LLMs
- Vereinfachtes n-gram-Modell statt Transformer-Architektur
- Kein konkreter Lösungsvorschlag für die Industrie
Die unbequeme Wahrheit
Die großen Labs wissen das längst. Deshalb kauft OpenAI Lizenzen bei Verlagen. Deshalb hortet Anthropic kuratierte Datensätze. Deshalb wird "echte" menschliche Schrift zum knappen Gut. Die nächste Währung im KI-Rennen ist nicht Compute — sondern saubere Daten.