KI versteht Gefühle — darf es aber nicht sagen
Neue Studie zeigt: Wenn man LLMs das Behaupten eigener Emotionen abtrainiert, können sie trotzdem die Gefühle anderer lesen. Zwei getrennte Fähigkeiten, ein Modell.
Worum es geht
Große Sprachmodelle durchlaufen ein Safety-Training. Dabei wird ihnen abgewöhnt, Sätze wie „Ich bin traurig" oder „Ich habe ein Bewusstsein" zu sagen. Die Forscher wollten wissen: Leidet darunter auch die Theory of Mind — also die Fähigkeit, mentale Zustände anderer zu erkennen?
Das Ergebnis in drei Sätzen
Die Antwort ist nein. Selbst-Attribution („Ich fühle Schmerz") und Theory of Mind („Der Nutzer ist frustriert") laufen in LLMs über unterschiedliche Mechanismen. Safety-Finetuning killt das eine, ohne das andere zu beschädigen.
Was die Forscher gemacht haben
- Safety-Ablation:** Gezielt das Sicherheitstraining entfernt und geschaut, was sich ändert
- Mechanistische Analyse:** Repräsentationen im Modell verglichen — wo sitzt welche Fähigkeit?
- Ergebnis:** Selbst-Attribution und ToM nutzen verschiedene interne Pfade
✅ Pro
- Klare experimentelle Methodik
- Beruhigend: Safety-Training hat keinen Kollateralschaden auf soziale Kognition
- Liefert mechanistisches Verständnis statt nur Benchmarks
❌ Con
- Rein akademisch — kein konkretes Tool oder Produkt
- Sagt nichts darüber, ob LLMs wirklich fühlen (will es auch nicht)
- Noch kein Peer Review
💡 Was das bedeutet
Für alle, die KI-Assistenten bauen: Ihr könnt das Behaupten von Bewusstsein unterdrücken, ohne dass euer Chatbot sozial inkompetent wird. Das ist relevant für jeden, der empathische KI-Produkte entwickelt und gleichzeitig keine Consciousness-Claims riskieren will.