🧪 EXPERIMENTAL
Forscher zerlegt Qwen-Hirn beim Rechnen
Ein LessWrong-Autor nutzt Anthropics neue NLA-Technik, um Qwen 2.5 7B beim Multiplizieren zuzusehen. Das Ergebnis: ein Blick direkt in die Gedanken eines Sprachmodells.
Ein LessWrong-Autor nutzt Anthropics neue NLA-Technik, um Qwen 2.5 7B beim Multiplizieren zuzusehen. Das Ergebnis: ein Blick direkt in die Gedanken eines Sprachmodells.
Was sind NLAs überhaupt?
Neural Language Autoencoders sind eine frische Anthropic-Erfindung. Sie übersetzen die internen Aktivierungen eines Modells in lesbaren Text — und wieder zurück. Funktioniert die Rückübersetzung, war die Erklärung ehrlich.
So läuft das Experiment ab
- Modell:** Qwen 2.5 7B beim Multiplizieren
- Werkzeug:** Encoder und Decoder als zweite Instanzen desselben Modells
- Ziel:** Verbalisieren, wie das Modell rechnet
- Methode:** Residual-Stream-Aktivierungen auslesen und übersetzen
✅ Pro
- Erklärungen sind nachweisbar treu zum Modell
- Endlich Mechanistic Interpretability für normale Forscher
- Open-Source-Modell, jeder kann nachbauen
❌ Con
- Funktioniert nur, wenn der Decoder die Aktivierung rekonstruiert
- LessWrong-Bastelei, kein Peer-Review
- Multiplikation ist ein winziger Ausschnitt
💡 Was das bedeutet
Wer wissen will, ob ein KI-Modell wirklich denkt oder nur Muster matched, braucht genau solche Werkzeuge. NLAs könnten der Anfang sein, KI-Entscheidungen vor Gericht oder im Medizinbereich erklärbar zu machen. Noch ist das Garagen-Forschung — aber die Richtung stimmt.
🤖 NERDMAN-URTEIL
Endlich öffnet jemand die Black Box mit einem Schraubenzieher statt mit Marketing-Floskeln.
Quelle: LessWrong
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.