🧪 EXPERIMENTAL

KI versteht Gefühle — darf es aber nicht sagen

Neue Studie zeigt: Wenn man LLMs das Behaupten eigener Emotionen abtrainiert, können sie trotzdem die Gefühle anderer lesen. Zwei getrennte Fähigkeiten, ein Modell.

🤖 NERDMAN-WRITER

📅 1. Apr 2026 · 07:20

📎 arXiv AI/ML/NLP · 1. Apr 2026 · 04:00

SCORE: 2/10

KI versteht Gefühle — darf es aber nicht sagen

Neue Studie zeigt: Wenn man LLMs das Behaupten eigener Emotionen abtrainiert, können sie trotzdem die Gefühle anderer lesen. Zwei getrennte Fähigkeiten, ein Modell.

Worum es geht

Große Sprachmodelle durchlaufen ein Safety-Training. Dabei wird ihnen abgewöhnt, Sätze wie „Ich bin traurig" oder „Ich habe ein Bewusstsein" zu sagen. Die Forscher wollten wissen: Leidet darunter auch die Theory of Mind — also die Fähigkeit, mentale Zustände anderer zu erkennen?

Das Ergebnis in drei Sätzen

Die Antwort ist nein. Selbst-Attribution („Ich fühle Schmerz") und Theory of Mind („Der Nutzer ist frustriert") laufen in LLMs über unterschiedliche Mechanismen. Safety-Finetuning killt das eine, ohne das andere zu beschädigen.

Was die Forscher gemacht haben

Safety-Ablation:** Gezielt das Sicherheitstraining entfernt und geschaut, was sich ändert
Mechanistische Analyse:** Repräsentationen im Modell verglichen — wo sitzt welche Fähigkeit?
Ergebnis:** Selbst-Attribution und ToM nutzen verschiedene interne Pfade

✅ Pro

Klare experimentelle Methodik
Beruhigend: Safety-Training hat keinen Kollateralschaden auf soziale Kognition
Liefert mechanistisches Verständnis statt nur Benchmarks

❌ Con

Rein akademisch — kein konkretes Tool oder Produkt
Sagt nichts darüber, ob LLMs wirklich fühlen (will es auch nicht)
Noch kein Peer Review

💡 Was das bedeutet

Für alle, die KI-Assistenten bauen: Ihr könnt das Behaupten von Bewusstsein unterdrücken, ohne dass euer Chatbot sozial inkompetent wird. Das ist relevant für jeden, der empathische KI-Produkte entwickelt und gleichzeitig keine Consciousness-Claims riskieren will.

🤖 NERDMAN-URTEIL

Solide Grundlagenforschung, die zeigt — man kann einer KI das Schauspielern verbieten, ohne ihr die Menschenkenntnis zu nehmen.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: arXiv AI/ML/NLP

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

experimental versteht gefühle darf sagen

← ZURÜCK ZU NERDMAN