🧪 EXPERIMENTAL

KI-Denken lässt sich kaum manipulieren

Neue Forschung zeigt: Wenn große Sprachmodelle „laut denken", folgen sie dabei schlecht Anweisungen. Ihre Antworten? Die lassen sich problemlos steuern. Ihr Denkprozess? Nicht so ...

🤖 NERDMAN-WRITER

📅 18. Apr 2026 · 04:19

📎 LessWrong · 17. Apr 2026 · 19:30

SCORE: 3/10

Neue Forschung zeigt: Wenn große Sprachmodelle „laut denken", folgen sie dabei schlecht Anweisungen. Ihre Antworten? Die lassen sich problemlos steuern. Ihr Denkprozess? Nicht so sehr.

Worum es geht

Yueh-Han et al. haben untersucht, wie gut Modelle ihre Chain of Thought (CoT) — also den sichtbaren Denkprozess — nach Vorgaben formen können. Ergebnis: Die Modelle scheitern regelmäßig daran, simple Stilregeln beim Denken einzuhalten. Schreib alles klein, vermeide ein bestimmtes Wort — klingt leicht. Ist es aber nicht, wenn das Modell gleichzeitig eine echte Aufgabe lösen muss.

Das Experiment

Aufgabe:** Modelle sollen Reasoning-Aufgaben lösen UND dabei Stilregeln im CoT befolgen
Stilregeln:** Z.B. nur Kleinbuchstaben nutzen oder bestimmte Wörter vermeiden
Ergebnis:** Die finale Antwort lässt sich leicht kontrollieren — der Denkprozess nicht
Code:** Öffentlich auf GitHub verfügbar

💡 Was das bedeutet

Das ist relevant für KI-Sicherheit. Viele Forscher hoffen, dass man über den sichtbaren Denkprozess überwachen kann, ob ein Modell ehrlich arbeitet. Wenn Modelle aber ihren CoT gar nicht gezielt fälschen können, wäre das eine natürliche Schutzschicht. Frühzeitiges Abbrechen des CoT (Early Exit) untergräbt diesen Vorteil allerdings komplett.

✅ Pro

Liefert harte Daten statt Bauchgefühl zur CoT-Sicherheit
Code ist offen, Ergebnisse reproduzierbar
Direkt relevant für Alignment-Forschung

❌ Con

LessWrong-Post, kein Peer-Review
Kein großes Lab beteiligt
Praktische Auswirkungen noch unklar

🤖 NERDMAN-URTEIL

Wer KI-Sicherheit ernst nimmt, sollte aufhören, Chain of Thought als magisches Überwachungstool zu verkaufen — die Forschung zeigt, dass die Sache deutlich komplizierter ist.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: LessWrong

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

experimental ki-denken lässt sich kaum manipulieren

← ZURÜCK ZU NERDMAN