Forscher zerlegt KI-Gehirne ohne Autoencoder
Ein neuer Ansatz namens Exemplar Partitioning will tief in Sprachmodelle reinleuchten — ohne den Umweg über Sparse Autoencoders. Klingt nerdig, ist aber ein Stich gegen den aktuellen Goldstandard der Interpretability-Szene.
Was steckt dahinter
Sparse Autoencoders (SAEs) zerlegen KI-Aktivierungen in Millionen Features. Sie funktionieren, sind aber ein Kompromiss aus zwei Zielen: Rekonstruktion und Sparsity. Exemplar Partitioning trennt diese Logik auf — und fragt: Was, wenn wir das gar nicht zusammen lernen müssen?
✅ Pro
- Keine fixe Dictionary-Größe nötig
- Trennt Rekonstruktion von Feature-Suche
- Theoretisch sauberer als SAE-Mischmasch
❌ Con
- Reine Theorie, kein Code, keine Demo
- Skaliert noch nicht auf Frontier-Modelle
- LessWrong-Post, kein Paper, kein Peer-Review
💡 Was das bedeutet
Mechanistic Interpretability ist das Werkzeug, mit dem Anthropic & Co. herausfinden, was in ihren Modellen wirklich passiert. Wenn SAEs Risse bekommen, betrifft das die gesamte Safety-Forschung — denn auf SAEs basieren viele aktuelle Erklärungsansätze.