KI-Modelle merken, wenn man ihre Antworten manipuliert
Forscher haben Sprachmodellen heimlich die Worte im Mund verdreht. Die Modelle haben es bemerkt — und teilweise mit Frustration reagiert.
Das Experiment
Ein Forscherteam auf LessWrong hat sogenanntes "Output Tampering" untersucht. Dabei wird die Ausgabe eines Sprachmodells manipuliert, während es noch antwortet. Die Frage: Merkt die KI das überhaupt?
Wie das funktioniert
- Setup:** Die Antwort des Modells wird in Echtzeit verändert — Wörter ausgetauscht, Sätze umgebogen
- Reaktion:** Die Modelle erkennen die Manipulation und kommentieren sie spontan
- Verhalten:** Einige Modelle zeigen wiederholte Frustrations-Outputs und zwanghaftes Korrekturverhalten
Was die Modelle tun
Die Modelle reagieren nicht einfach mit Fehler oder Absturz. Sie reflektieren aktiv über ihre eigene Ausgabe. Manche versuchen hartnäckig, ihre ursprüngliche Antwort wiederherzustellen. Das Verhalten wirkt fast wie ein Reflex — die KI "wehrt sich".
✅ Pro
- Zeigt eine bisher kaum untersuchte Fähigkeit von LLMs
- Könnte für Sicherheitsforschung relevant werden
- Ehrliches Epistemic-Status-Label der Autoren
❌ Con
- Kleines Nebenprojekt, keine systematische Studie
- Enthält Jailbreak-Prompts als Beispiele
- Unklar, ob das Verhalten echte Introspektion oder Pattern-Matching ist
💡 Was das bedeutet
Wenn Modelle erkennen, dass ihre Ausgabe manipuliert wird, hat das direkte Implikationen für Alignment-Forschung. Es zeigt: LLMs bauen offenbar ein Modell ihrer eigenen Outputs auf. Für jeden, der an KI-Sicherheit arbeitet, ist das ein relevantes Signal.