Forscher zerlegen KI-Gehirne mit Sparse Autoencoders
Was denkt sich ein KI-Modell, wenn es ein EEG anschaut? Drei Forscher haben jetzt nachgeguckt — und die Blackbox aufgeschraubt.
Was konkret passiert ist
Ein Forscherteam hat TopK Sparse Autoencoders (SAEs) auf drei verschiedene EEG-Foundation-Models losgelassen: SleepFM, REVE und LaBraM. Ziel: Die internen Berechnungen sichtbar machen, die zu einer klinischen Vorhersage führen. Bisher waren diese Modelle pure Blackboxes.
Wie das funktioniert
Die SAEs extrahieren sparse Feature-Dictionaries aus den Embeddings der Modelle. Die Features werden dann gegen eine klinische Taxonomie geprüft — Auffälligkeiten, Alter, Geschlecht, Medikation. Das Ergebnis: Man sieht, welche Features das Modell tatsächlich nutzt.
✅ Pro
- Erste echte Transparenz für EEG-Modelle
- Funktioniert über drei verschiedene Architekturen
- Klinische Features lassen sich konkret zuordnen
❌ Con
- Reine Forschungsarbeit, kein Tool, kein Demo
- SAEs sind selbst nicht trivial zu interpretieren
- Klinischer Praxis-Einsatz weit entfernt
💡 Was das bedeutet
Mechanistic Interpretability war bisher vor allem Sprachmodell-Spielwiese — Anthropic, OpenAI, Google. Dass dieselben Methoden jetzt in medizinischer Diagnostik landen, ist der entscheidende Schritt. Ohne Erklärbarkeit kein Arzt-Vertrauen, ohne Vertrauen keine Zulassung.