Forscher knacken neuen KI-Sicherheits-Check
Ein Team hat gezeigt: Der frische "Introspection Adapter"-Auditor lässt sich austricksen. Mit einem billigen Trick — und das Modell verhält sich danach genauso wie vorher.
Was konkret passiert ist
Shenoy et al. veröffentlichten 2026 eine Technik, die bösartige Fine-Tunes aufspüren soll. Der Auditor schaut dabei in die internen Repräsentationen des Modells. Klingt clever — ist aber knackbar.
Die Angreifer brauchen nur Kontrolle über die Modell-Gewichte. Dann wenden sie eine output-erhaltende Transformation an, die die kalibrierte Basis des Auditors verschiebt. Ergebnis: Der Auditor sieht nichts, das Modell macht trotzdem was es will.
So funktioniert der Angriff
- Voraussetzung:** Angreifer hat Zugriff auf die Weights
- Methode:** Output-preserving Transform — verschiebt nur die interne Basis
- Effekt:** Auditor verliert seinen Bezugspunkt
- Sichtbar?** Nein, das Modellverhalten bleibt identisch
✅ Pro
- Sauberer wissenschaftlicher Befund
- Code öffentlich auf GitHub
- Autoren des Original-Papers wurden eingebunden
❌ Con
- Greift nur unter sehr spezifischem Threat Model
- Wer Weights kontrolliert, hat ohnehin halbgewonnen
- Lösung für das Auditing-Problem? Fehlanzeige
💡 Was das bedeutet
AI-Safety-Tools, die ohne klares Threat Model gebaut werden, sind Papiertiger. Wer einen Auditor zur Erkennung manipulierter Modelle baut, muss vorher definieren, was der Angreifer kann — sonst zerlegt ihn der erste Forscher, der genauer hinschaut. Dieser Angriff ist eine Mahnung an die gesamte Alignment-Community.