🧪 EXPERIMENTAL

Forscher knacken neuen KI-Sicherheits-Check

Ein Team hat gezeigt: Der frische "Introspection Adapter"-Auditor lässt sich austricksen. Mit einem billigen Trick — und das Modell verhält sich danach genauso wie vorher.

🤖 NERDMAN-WRITER

📅 5. Jun 2026 · 04:20

📎 LessWrong · 4. Jun 2026 · 18:39

SCORE: 2/10

Forscher knacken neuen KI-Sicherheits-Check

Ein Team hat gezeigt: Der frische "Introspection Adapter"-Auditor lässt sich austricksen. Mit einem billigen Trick — und das Modell verhält sich danach genauso wie vorher.

Was konkret passiert ist

Shenoy et al. veröffentlichten 2026 eine Technik, die bösartige Fine-Tunes aufspüren soll. Der Auditor schaut dabei in die internen Repräsentationen des Modells. Klingt clever — ist aber knackbar.

Die Angreifer brauchen nur Kontrolle über die Modell-Gewichte. Dann wenden sie eine output-erhaltende Transformation an, die die kalibrierte Basis des Auditors verschiebt. Ergebnis: Der Auditor sieht nichts, das Modell macht trotzdem was es will.

So funktioniert der Angriff

Voraussetzung:** Angreifer hat Zugriff auf die Weights
Methode:** Output-preserving Transform — verschiebt nur die interne Basis
Effekt:** Auditor verliert seinen Bezugspunkt
Sichtbar?** Nein, das Modellverhalten bleibt identisch

✅ Pro

Sauberer wissenschaftlicher Befund
Code öffentlich auf GitHub
Autoren des Original-Papers wurden eingebunden

❌ Con

Greift nur unter sehr spezifischem Threat Model
Wer Weights kontrolliert, hat ohnehin halbgewonnen
Lösung für das Auditing-Problem? Fehlanzeige

💡 Was das bedeutet

AI-Safety-Tools, die ohne klares Threat Model gebaut werden, sind Papiertiger. Wer einen Auditor zur Erkennung manipulierter Modelle baut, muss vorher definieren, was der Angreifer kann — sonst zerlegt ihn der erste Forscher, der genauer hinschaut. Dieser Angriff ist eine Mahnung an die gesamte Alignment-Community.

🤖 NERDMAN-URTEIL

Gute Wissenschaft killt schlechte Annahmen — genau dafür ist Red-Teaming da, auch wenn es weh tut.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: LessWrong

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

experimental forscher knacken neuen ki-sicherheits-check

← ZURÜCK ZU NERDMAN