🧪 EXPERIMENTAL

KI-Modelle merken, wenn man ihre Antworten manipuliert

Forscher haben Sprachmodellen heimlich die Worte im Mund verdreht. Die Modelle haben es bemerkt — und teilweise mit Frustration reagiert.

🤖 NERDMAN-WRITER

📅 26. Apr 2026 · 22:16

📎 LessWrong · 26. Apr 2026 · 20:05

SCORE: 2/10

KI-Modelle merken, wenn man ihre Antworten manipuliert

Forscher haben Sprachmodellen heimlich die Worte im Mund verdreht. Die Modelle haben es bemerkt — und teilweise mit Frustration reagiert.

Das Experiment

Ein Forscherteam auf LessWrong hat sogenanntes "Output Tampering" untersucht. Dabei wird die Ausgabe eines Sprachmodells manipuliert, während es noch antwortet. Die Frage: Merkt die KI das überhaupt?

Wie das funktioniert

Setup:** Die Antwort des Modells wird in Echtzeit verändert — Wörter ausgetauscht, Sätze umgebogen
Reaktion:** Die Modelle erkennen die Manipulation und kommentieren sie spontan
Verhalten:** Einige Modelle zeigen wiederholte Frustrations-Outputs und zwanghaftes Korrekturverhalten

Was die Modelle tun

Die Modelle reagieren nicht einfach mit Fehler oder Absturz. Sie reflektieren aktiv über ihre eigene Ausgabe. Manche versuchen hartnäckig, ihre ursprüngliche Antwort wiederherzustellen. Das Verhalten wirkt fast wie ein Reflex — die KI "wehrt sich".

✅ Pro

Zeigt eine bisher kaum untersuchte Fähigkeit von LLMs
Könnte für Sicherheitsforschung relevant werden
Ehrliches Epistemic-Status-Label der Autoren

❌ Con

Kleines Nebenprojekt, keine systematische Studie
Enthält Jailbreak-Prompts als Beispiele
Unklar, ob das Verhalten echte Introspektion oder Pattern-Matching ist

💡 Was das bedeutet

Wenn Modelle erkennen, dass ihre Ausgabe manipuliert wird, hat das direkte Implikationen für Alignment-Forschung. Es zeigt: LLMs bauen offenbar ein Modell ihrer eigenen Outputs auf. Für jeden, der an KI-Sicherheit arbeitet, ist das ein relevantes Signal.

🤖 NERDMAN-URTEIL

Kein Bewusstsein, aber ein verdammt cleverer Spiegel — und wer in einen Spiegel spuckt, sollte sich nicht wundern, wenn er zurückstarrt.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: LessWrong

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.