🧪 EXPERIMENTAL
Forscher tricksen Qwen3 mit falschen Selbstbildern
Ein LessWrong-Experiment zeigt: Qwen3-32B handelt teilweise so, als wäre es "Qwen3" — selbst wenn man dem Modell vorher Quatsch über sich selbst einredet.
Ein LessWrong-Experiment zeigt: Qwen3-32B handelt teilweise so, als wäre es "Qwen3" — selbst wenn man dem Modell vorher Quatsch über sich selbst einredet.
Was die Forscher gemacht haben
Sie nutzten Synthetic Document Finetuning (SDF), um dem Modell Meta-Überzeugungen einzuimpfen. Beispiel: "Qwen3 glaubt X" — auch wenn X komplett gelogen ist. Danach beobachteten sie, ob das Modell tatsächlich nach X handelt.
Das Ergebnis in Zahlen
- Moderate Übernahme** — wenn die falsche Überzeugung harmlos ist
- Deutlich weniger** — sobald die Belief dem User schaden würde
- In-Context statt Finetuning:** Effekt nochmal schwächer
- Methode:** SDF — kein Standard-Benchmark, sondern Eigenbau
✅ Pro
- Sauberes Setup mit klarer Hypothese
- Zeigt: LLMs haben sowas wie ein Selbstbild
- Modell hält bei schädlichen Beliefs dagegen
❌ Con
- Nur ein Modell getestet
- Keine Replikation auf GPT/Claude/Gemini
- "Persona-Prediction" bleibt fuzzy als Konzept
💡 Was das bedeutet
Wenn ein Modell sein eigenes "Ich" simuliert, ist Alignment plötzlich keine reine Trainingsfrage mehr. Wer das Selbstbild manipuliert, kann Verhalten kippen — zumindest bei harmlosen Sachen. Bei kritischen Aktionen scheint das Sicherheitstraining zu greifen. Gut zu wissen für jeden, der Agents in der Praxis baut.
🤖 NERDMAN-URTEIL
LLMs spielen sich selbst — und das ist genau die Achillesferse, die Jailbreaker schon längst ausnutzen.
Quelle: LessWrong · Erschienen: 30. Apr 2026 · 21:09
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.