Bio-KI verschwendet 90 Prozent ihres Wissens
Die KI-Branche baut immer größere Foundation Models für Zellbiologie. Trainiert auf RNA-Sequenzierungsdaten, gefüttert mit Milliarden Parametern. Aber kaum jemand schaut nach, was die Modelle eigentlich schon können.
Das Problem
Biologische Foundation Models werden wie LLMs evaluiert — Benchmarks, Leaderboards, Skalierung. Mehr Daten, mehr Parameter, bessere Scores. Nur: Das ist der falsche Ansatz. Zellbiologie funktioniert anders als Sprache. Und die Modelle wissen bereits mehr, als ihre Entwickler ahnen.
Was Sparse Autoencoders hier ändern
Sparse Autoencoders (SAEs) sind ein Werkzeug aus der Mechanistic Interpretability — eigentlich entwickelt, um LLMs zu durchleuchten. Jetzt zeigt ein Forscher auf LessWrong: Die Technik funktioniert auch bei Single-Cell-Modellen.
- SAEs** zerlegen die internen Repräsentationen eines Modells in interpretierbare Einzelteile
- Ergebnis:** Man sieht, welche biologischen Konzepte das Modell gelernt hat — Zelltypen, Signalwege, Krankheitsmuster
- Pointe:** Die Modelle wissen schon verdammt viel. Wir fragen nur falsch.
💡 Was das bedeutet
Statt blind größer zu bauen, könnte die Bio-KI-Szene erst mal das ausschöpfen, was schon da ist. SAEs machen unsichtbares Wissen sichtbar. Das ist billiger als das nächste Milliarden-Modell zu trainieren — und wissenschaftlich deutlich wertvoller.
✅ Pro
- Macht biologische KI-Modelle interpretierbar
- Günstiger als ständige Skalierung
- Überträgt bewährte Methoden aus der LLM-Forschung
❌ Con
- Nischenthema, kaum Aufmerksamkeit außerhalb der Forschung
- Kein fertiges Tool, kein Produkt
- Biologische Validierung der gefundenen Features ist aufwendig