GPT-4 erklärt jedes Neuron in GPT-2
OpenAI lässt ein KI-Modell die Gehirnzellen eines anderen KI-Modells erklären. Klingt nach Science-Fiction, ist aber ein echtes Forschungsprojekt.
Maschine seziert Maschine
Das Prinzip ist simpel: GPT-4 schaut sich einzelne Neuronen in GPT-2 an und beschreibt, wofür sie zuständig sind. Feuert ein Neuron bei Sportbegriffen? Bei Satzzeichen? Bei negativen Emotionen? GPT-4 schreibt eine Erklärung — und bewertet danach selbst, wie gut die Erklärung ist.
- Methode:** Automatische Erklärung + Scoring durch GPT-4
- Ziel:** Jedes einzelne Neuron in GPT-2 durchleuchten
- Datensatz:** Komplett veröffentlicht — für alle Neuronen in GPT-2
Warum GPT-2?
GPT-2 ist ein Uralt-Modell nach heutigen Maßstäben. Aber genau das macht es zum perfekten Versuchskaninchen. Klein genug zum Durchleuchten, groß genug um relevant zu sein. Die Hoffnung: Was hier funktioniert, soll irgendwann auch bei den großen Modellen klappen.
Die ehrliche Einschränkung
OpenAI nennt die Erklärungen selbst "imperfect". Die Scores sind nicht überall hoch. Wir reden hier von einem ersten Schritt, nicht von einem Durchbruch. Interpretierbarkeit bleibt eines der härtesten Probleme in der KI-Forschung — und dieses Projekt zeigt vor allem, wie weit der Weg noch ist.