🧪 EXPERIMENTAL
PCA enthüllt: So "denkt" ein KI-Modell heimlich
Forscher haben einem Latent-Reasoning-Modell ins Gehirn geschaut. Mit PCA und Logit Lens zeigt sich: Die erste Hauptkomponente der Hidden States korreliert stark mit dem Ende der ...
Forscher haben einem Latent-Reasoning-Modell ins Gehirn geschaut. Mit PCA und Logit Lens zeigt sich: Die erste Hauptkomponente der Hidden States korreliert stark mit dem Ende der stillen Denkphase.
Was hier untersucht wird
CoDI (Chain of Draft Inference) ist ein Modell, das intern "nachdenkt" — ohne dass du die Gedankenkette siehst. Basiert auf Llama 3.2 1B. Die Frage: Kann man dieses stille Denken von außen lesen?
So funktioniert die Methode
- Modell:** CoDI Llama 3.2 1B (öffentlich verfügbar)
- Werkzeuge:** PCA auf Hidden-State-Aktivierungen, Logit Lens, Activation Steering
- Erkenntnis:** PCA-Komponente 1 korreliert stark mit dem `<|eocot|>`-Token — dem Signal für "Denken beendet"
- Problem:** Activation Steering funktioniert nur über KV-Cache, nicht über Hidden States direkt
💡 Was das bedeutet
Latent Reasoning ist die Idee, dass Modelle intern rechnen, ohne tokens auszugeben. Wenn PCA die Denkphase sichtbar macht, öffnet das die Tür für Interpretierbarkeit solcher Modelle. Noch ist das Grundlagenforschung an einem winzigen 1B-Modell — aber genau so fängt es an.
✅ Pro
- Zeigt, dass stilles Reasoning nicht unsichtbar bleiben muss
- Methoden sind reproduzierbar, Checkpoint ist öffentlich
- Kombiniert mehrere Analyse-Werkzeuge sinnvoll
❌ Con
- Nur 1B-Parameter — unklar ob das bei großen Modellen skaliert
- Keine praktische Anwendung, reine Forschung
- Autor liefert selbst Kritik an CoDI mit — das Modell hat Schwächen
🤖 NERDMAN-URTEIL
Nischig, nerdig, aber genau die Art Forschung, die irgendwann den Unterschied macht zwischen "KI denkt" und "wir verstehen, was KI denkt".
Quelle: LessWrong
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.