🧪 EXPERIMENTAL
Forscher zwingt Gemma 3, sich selbst zu erklären
Ein Interpretability-Experiment auf LessWrong jagt Gemmas Aktivierungen durch einen "Verbalizer" — und schaut, wo das Modell sich selbst widerspricht.
Ein Interpretability-Experiment auf LessWrong jagt Gemmas Aktivierungen durch einen "Verbalizer" — und schaut, wo das Modell sich selbst widerspricht.
Was hier konkret läuft
Der Autor nutzt die Natural Language Autoencoders (NLA) aus dem gleichnamigen Paper. Ein Verbalizer übersetzt interne Aktivierungen von Gemma 3 12B in englischen Klartext. Ein Reconstructor baut aus diesem Klartext die Aktivierungen wieder zusammen.
Klingt nach Magie. Ist es nicht. Es ist ein Mess-Instrument.
Die Zahlen
- 12B** — Größe des untersuchten Gemma-Modells
- 20.000** — zufällige Tokens aus einem Pretraining-Datensatz (Common Pile)
- 20.000** — weitere Tokens aus einem Chat-Datensatz
- 2×** — Durchläufe pro Token: erst verbalisieren, dann rekonstruieren
So funktioniert das Experiment
- Schritt 1:** Aktivierung an einer Position im Modell abgreifen
- Schritt 2:** Verbalizer macht daraus einen englischen Satz ("Erklärung")
- Schritt 3:** Reconstructor baut aus dem Satz die Aktivierung neu
- Schritt 4:** Rekonstruktionsfehler messen — wo klafft die Lücke?
✅ Pro
- Erklärungen sind menschenlesbar, kein Feature-Salat
- Reconstruction Error zeigt, wo der Verbalizer lügt oder schludert
- Funktioniert auf echten Pretraining- und Chat-Daten, nicht nur Toy-Beispielen
❌ Con
- Nur ein Modell, nur eine Größe — Generalisierbarkeit offen
- Hoher Error heißt nicht automatisch "interessantes Token"
- Methode steht und fällt mit Qualität von Verbalizer und Reconstructor
💡 Was das bedeutet
Interpretability bewegt sich weg von "schau dir Neuronen an" hin zu "lass das Modell sich selbst übersetzen". Wer KI-Sicherheit ernst nimmt, sollte NLA auf der Liste haben — auch wenn der Stack heute noch wackelt.
🤖 NERDMAN-URTEIL
Kein Hype, kein Produkt — nur sauberes Handwerk an einer Frage, die irgendwann jeden trifft, der LLMs in Produktion schickt.
Quelle: LessWrong
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.