KI erklärt sich selbst — fast
Forscher haben eine Methode gebaut, die LLM-Aktivierungen in normalen Sätzen beschreibt. Unüberwacht. Ohne Labels. Ohne menschliches Zutun.
Was die NLAs machen
Natural Language Autoencoders bestehen aus zwei Modulen. Der Activation Verbalizer liest eine Aktivierung im Residual Stream und schreibt einen Text dazu. Der Activation Reconstructor baut aus dem Text die Aktivierung wieder auf.
Beide Module werden gemeinsam mit Reinforcement Learning trainiert. Ziel: Die Rekonstruktion soll möglichst nah am Original liegen.
Wie das technisch läuft
- Input:** Residual-Stream-Aktivierung aus einem LLM
- Schritt 1:** AV verbalisiert die Aktivierung in Klartext
- Schritt 2:** AR rekonstruiert die Aktivierung aus dem Text
- Training:** RL mit Reconstruction-Loss als Signal
- Output:** Lesbare Erklärungen, ganz ohne Labels
✅ Pro
- Komplett unüberwacht — kein teures Labeling nötig
- Erklärungen kommen in natürlicher Sprache, nicht als Feature-Vektor
- Skalierbar auf große Modelle
❌ Con
- Kein Top-Lab-Release, keine Demo, kein Download
- Reconstruction-Optimierung garantiert noch keine treuen Erklärungen
- Bisher nur Forschungspapier, kein Tool für die Praxis
💡 Was das bedeutet
Interpretability ist die Achillesferse moderner LLMs. Wenn dieser Ansatz hält was er verspricht, müssen wir Aktivierungen nicht mehr mühsam mit Sparse Autoencoders zerlegen — das Modell erklärt sich selbst auf Deutsch oder Englisch. Für Alignment-Forschung wäre das ein dicker Hebel.