KI-Modelle denken bald unleserlich — und jetzt?
Reasoning-Modelle wie o1 oder DeepSeek-R1 denken in Textform. Man kann ihre Gedankenketten lesen, kopieren, nachtrainieren. Aber was passiert, wenn das aufhört?
Das Problem
Künftige Modelle könnten in sogenannten "latenten Räumen" denken — ohne lesbaren Text. Oder sie nutzen Englisch so eigenwillig, dass kein Mensch die Ketten mehr nachvollzieht. Supervised Fine-Tuning (SFT), die Standardmethode zum Nachtrainieren, funktioniert dann nicht mehr.
Was die Forscher getestet haben
Ein Team hat systematisch untersucht, wie man Modelle fine-tunen kann, deren Denkprozesse man nicht imitieren kann. Drei Ansätze im Test:
- Trace-basiertes SFT:** Klassisch — man trainiert auf den Gedankenketten eines stärkeren Modells. Funktioniert, solange die Ketten lesbar sind.
- Outcome-basiertes Training:** Man ignoriert den Denkweg und belohnt nur das richtige Ergebnis.
- Hybride Methoden:** Mix aus beiden — teilweise imitieren, teilweise nur auf Output optimieren.
💡 Was das bedeutet
Das ist kein Produktlaunch und kein Benchmark-Rekord. Aber es ist eine der wichtigsten offenen Fragen in der KI-Safety: Wenn wir nicht mehr lesen können, wie ein Modell denkt, können wir es dann noch kontrollieren? Diese Studie liefert erste Daten statt Spekulation. Der gesamte Code ist Open Source.
✅ Pro
- Systematischer Vergleich statt Bauchgefühl
- Code öffentlich verfügbar
- Adressiert ein reales Zukunftsproblem
❌ Con
- Akademisch, keine fertige Lösung
- Nur auf heutige Modelle getestet
- Für Nicht-Forscher schwer verdaulich