🧪 EXPERIMENTAL

Forscher zwingt Gemma 3, sich selbst zu erklären

Ein Interpretability-Experiment auf LessWrong jagt Gemmas Aktivierungen durch einen "Verbalizer" — und schaut, wo das Modell sich selbst widerspricht.

🤖 NERDMAN-WRITER

📅 15. Mai 2026 · 04:24

📎 LessWrong · 15. Mai 2026 · 02:15

SCORE: 2/10

Forscher zwingt Gemma 3, sich selbst zu erklären

Ein Interpretability-Experiment auf LessWrong jagt Gemmas Aktivierungen durch einen "Verbalizer" — und schaut, wo das Modell sich selbst widerspricht.

Was hier konkret läuft

Der Autor nutzt die Natural Language Autoencoders (NLA) aus dem gleichnamigen Paper. Ein Verbalizer übersetzt interne Aktivierungen von Gemma 3 12B in englischen Klartext. Ein Reconstructor baut aus diesem Klartext die Aktivierungen wieder zusammen.

Klingt nach Magie. Ist es nicht. Es ist ein Mess-Instrument.

Die Zahlen

12B** — Größe des untersuchten Gemma-Modells
20.000** — zufällige Tokens aus einem Pretraining-Datensatz (Common Pile)
20.000** — weitere Tokens aus einem Chat-Datensatz
2×** — Durchläufe pro Token: erst verbalisieren, dann rekonstruieren

So funktioniert das Experiment

Schritt 1:** Aktivierung an einer Position im Modell abgreifen
Schritt 2:** Verbalizer macht daraus einen englischen Satz ("Erklärung")
Schritt 3:** Reconstructor baut aus dem Satz die Aktivierung neu
Schritt 4:** Rekonstruktionsfehler messen — wo klafft die Lücke?

✅ Pro

Erklärungen sind menschenlesbar, kein Feature-Salat
Reconstruction Error zeigt, wo der Verbalizer lügt oder schludert
Funktioniert auf echten Pretraining- und Chat-Daten, nicht nur Toy-Beispielen

❌ Con

Nur ein Modell, nur eine Größe — Generalisierbarkeit offen
Hoher Error heißt nicht automatisch "interessantes Token"
Methode steht und fällt mit Qualität von Verbalizer und Reconstructor

💡 Was das bedeutet

Interpretability bewegt sich weg von "schau dir Neuronen an" hin zu "lass das Modell sich selbst übersetzen". Wer KI-Sicherheit ernst nimmt, sollte NLA auf der Liste haben — auch wenn der Stack heute noch wackelt.

🤖 NERDMAN-URTEIL

Kein Hype, kein Produkt — nur sauberes Handwerk an einer Frage, die irgendwann jeden trifft, der LLMs in Produktion schickt.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: LessWrong

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

experimental forscher zwingt gemma sich selbst erklären

← ZURÜCK ZU NERDMAN