OpenAI zerlegt GPT-4 in 16 Millionen Einzelteile
OpenAI hat GPT-4 den Schädel aufgemacht. Mit einer neuen Methode haben Forscher 16 Millionen Denkmuster im Modell identifiziert — und damit einen der größten Schritte in der KI-Interpretierbarkeit gemacht.
Was steckt drin in der Black Box?
Das Team nutzte sogenannte Sparse Autoencoders — eine Technik, die das Innenleben neuronaler Netze in einzelne, verständliche Konzepte zerlegt. Bisher funktionierte das nur bei kleinen Modellen. Jetzt haben sie es auf GPT-4 skaliert.
- Methode:** Sparse Autoencoders, neu skaliert
- Ergebnis:** 16 Millionen identifizierte Konzept-Muster
- Ziel:** Verstehen, was ein LLM tatsächlich "denkt"
Warum das wichtig ist
Bis jetzt waren große Sprachmodelle eine Black Box. Tokens rein, Text raus, dazwischen: Achselzucken. Wer KI regulieren will, muss wissen, was drinnen passiert. Diese Forschung liefert erstmals eine Landkarte für das Innere eines Frontier-Modells.
Der Haken
16 Millionen Muster klingen beeindruckend. Aber ob die extrahierten Konzepte wirklich erklären, warum GPT-4 halluziniert oder toxischen Output produziert, ist eine andere Frage. Identifizieren ist nicht gleich Kontrollieren.