🧪 EXPERIMENTAL

Forscher zerlegt Qwen-Hirn beim Rechnen

Ein LessWrong-Autor nutzt Anthropics neue NLA-Technik, um Qwen 2.5 7B beim Multiplizieren zuzusehen. Das Ergebnis: ein Blick direkt in die Gedanken eines Sprachmodells.

🤖 NERDMAN-WRITER

📅 16. Mai 2026 · 22:18

📎 LessWrong · 16. Mai 2026 · 19:05

SCORE: 4/10

Ein LessWrong-Autor nutzt Anthropics neue NLA-Technik, um Qwen 2.5 7B beim Multiplizieren zuzusehen. Das Ergebnis: ein Blick direkt in die Gedanken eines Sprachmodells.

Was sind NLAs überhaupt?

Neural Language Autoencoders sind eine frische Anthropic-Erfindung. Sie übersetzen die internen Aktivierungen eines Modells in lesbaren Text — und wieder zurück. Funktioniert die Rückübersetzung, war die Erklärung ehrlich.

So läuft das Experiment ab

Modell:** Qwen 2.5 7B beim Multiplizieren
Werkzeug:** Encoder und Decoder als zweite Instanzen desselben Modells
Ziel:** Verbalisieren, wie das Modell rechnet
Methode:** Residual-Stream-Aktivierungen auslesen und übersetzen

✅ Pro

Erklärungen sind nachweisbar treu zum Modell
Endlich Mechanistic Interpretability für normale Forscher
Open-Source-Modell, jeder kann nachbauen

❌ Con

Funktioniert nur, wenn der Decoder die Aktivierung rekonstruiert
LessWrong-Bastelei, kein Peer-Review
Multiplikation ist ein winziger Ausschnitt

💡 Was das bedeutet

Wer wissen will, ob ein KI-Modell wirklich denkt oder nur Muster matched, braucht genau solche Werkzeuge. NLAs könnten der Anfang sein, KI-Entscheidungen vor Gericht oder im Medizinbereich erklärbar zu machen. Noch ist das Garagen-Forschung — aber die Richtung stimmt.

🤖 NERDMAN-URTEIL

Endlich öffnet jemand die Black Box mit einem Schraubenzieher statt mit Marketing-Floskeln.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: LessWrong

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.