KI-Denken lässt sich kaum manipulieren
Neue Forschung zeigt: Wenn große Sprachmodelle „laut denken", folgen sie dabei schlecht Anweisungen. Ihre Antworten? Die lassen sich problemlos steuern. Ihr Denkprozess? Nicht so sehr.
Worum es geht
Yueh-Han et al. haben untersucht, wie gut Modelle ihre Chain of Thought (CoT) — also den sichtbaren Denkprozess — nach Vorgaben formen können. Ergebnis: Die Modelle scheitern regelmäßig daran, simple Stilregeln beim Denken einzuhalten. Schreib alles klein, vermeide ein bestimmtes Wort — klingt leicht. Ist es aber nicht, wenn das Modell gleichzeitig eine echte Aufgabe lösen muss.
Das Experiment
- Aufgabe:** Modelle sollen Reasoning-Aufgaben lösen UND dabei Stilregeln im CoT befolgen
- Stilregeln:** Z.B. nur Kleinbuchstaben nutzen oder bestimmte Wörter vermeiden
- Ergebnis:** Die finale Antwort lässt sich leicht kontrollieren — der Denkprozess nicht
- Code:** Öffentlich auf GitHub verfügbar
💡 Was das bedeutet
Das ist relevant für KI-Sicherheit. Viele Forscher hoffen, dass man über den sichtbaren Denkprozess überwachen kann, ob ein Modell ehrlich arbeitet. Wenn Modelle aber ihren CoT gar nicht gezielt fälschen können, wäre das eine natürliche Schutzschicht. Frühzeitiges Abbrechen des CoT (Early Exit) untergräbt diesen Vorteil allerdings komplett.
✅ Pro
- Liefert harte Daten statt Bauchgefühl zur CoT-Sicherheit
- Code ist offen, Ergebnisse reproduzierbar
- Direkt relevant für Alignment-Forschung
❌ Con
- LessWrong-Post, kein Peer-Review
- Kein großes Lab beteiligt
- Praktische Auswirkungen noch unklar