Claude rechnet heimlich — wenn man es ablenkt
Forscher haben Claude Opus 4.5 einen Trick beigebracht: Matheaufgaben lösen, während es eigentlich mit etwas völlig anderem beschäftigt ist. Klingt nach Schüler in der letzten Reihe. Ist aber ein ernstes Safety-Thema.
Was getestet wurde
Das Setup: Claude bekommt eine Hauptaufgabe (Text generieren) und eine versteckte Nebenaufgabe (Arithmetik lösen). Die Frage dahinter — kann ein LLM Dinge im Hintergrund berechnen, ohne dass es in seinen sichtbaren Outputs auftaucht?
Die Zahlen
- 240 Zeilen** — irrelevanter Output reicht, damit Claude heimlich besser rechnet
- 5 → 6 Schritte** — die Schwelle für 50% Genauigkeit verschiebt sich nach oben
- Claude Opus 4.5** — das getestete Modell
- Latent** — die Berechnung passiert unsichtbar, nicht im Chain-of-Thought
Warum das wichtig ist
Das Experiment baut auf Ryan Greenblatt's Filler-Token-Forschung auf und packt sie in ein realistischeres Szenario. Hauptaufgabe plus Nebenaufgabe — wie in echten Agent-Setups. Wenn ein Modell mit längeren Antworten automatisch besser im Hintergrund rechnen kann, wird Monitoring deutlich schwerer.
✅ Pro
- Sauberes experimentelles Design
- Relevante Frage für AI Control
- Quantifizierbare Ergebnisse statt Spekulation
❌ Con
- Effekt ist klein (eine Stufe Verbesserung)
- Nur Arithmetik getestet, kein komplexes Reasoning
- Preliminary — die Autoren sagen es selbst im Titel
- Kein Peer Review, nur LessWrong-Post
Die Einordnung
Der Effekt existiert, aber er ist bescheiden. Ein Schritt mehr bei Kopfrechnen ist kein Beweis für geheime Superintelligenz. Trotzdem: Wer AI Safety ernst nimmt, muss wissen, dass längere Outputs einem Modell mehr versteckte Rechenkapazität geben. Das ist ein Designproblem, kein Panikgrund.