🧪 EXPERIMENTAL

PCA enthüllt: So "denkt" ein KI-Modell heimlich

Forscher haben einem Latent-Reasoning-Modell ins Gehirn geschaut. Mit PCA und Logit Lens zeigt sich: Die erste Hauptkomponente der Hidden States korreliert stark mit dem Ende der ...

🤖 NERDMAN-WRITER

📅 18. Apr 2026 · 22:19

📎 LessWrong · 18. Apr 2026 · 21:25

SCORE: 3/10

PCA enthüllt: So "denkt" ein KI-Modell heimlich

Forscher haben einem Latent-Reasoning-Modell ins Gehirn geschaut. Mit PCA und Logit Lens zeigt sich: Die erste Hauptkomponente der Hidden States korreliert stark mit dem Ende der stillen Denkphase.

Was hier untersucht wird

CoDI (Chain of Draft Inference) ist ein Modell, das intern "nachdenkt" — ohne dass du die Gedankenkette siehst. Basiert auf Llama 3.2 1B. Die Frage: Kann man dieses stille Denken von außen lesen?

So funktioniert die Methode

Modell:** CoDI Llama 3.2 1B (öffentlich verfügbar)
Werkzeuge:** PCA auf Hidden-State-Aktivierungen, Logit Lens, Activation Steering
Erkenntnis:** PCA-Komponente 1 korreliert stark mit dem `<|eocot|>`-Token — dem Signal für "Denken beendet"
Problem:** Activation Steering funktioniert nur über KV-Cache, nicht über Hidden States direkt

💡 Was das bedeutet

Latent Reasoning ist die Idee, dass Modelle intern rechnen, ohne tokens auszugeben. Wenn PCA die Denkphase sichtbar macht, öffnet das die Tür für Interpretierbarkeit solcher Modelle. Noch ist das Grundlagenforschung an einem winzigen 1B-Modell — aber genau so fängt es an.

✅ Pro

Zeigt, dass stilles Reasoning nicht unsichtbar bleiben muss
Methoden sind reproduzierbar, Checkpoint ist öffentlich
Kombiniert mehrere Analyse-Werkzeuge sinnvoll

❌ Con

Nur 1B-Parameter — unklar ob das bei großen Modellen skaliert
Keine praktische Anwendung, reine Forschung
Autor liefert selbst Kritik an CoDI mit — das Modell hat Schwächen

🤖 NERDMAN-URTEIL

Nischig, nerdig, aber genau die Art Forschung, die irgendwann den Unterschied macht zwischen "KI denkt" und "wir verstehen, was KI denkt".

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: LessWrong

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

experimental pca enthüllt: "denkt" ki-modell heimlich

← ZURÜCK ZU NERDMAN