Forscher dekompiliert neuronale Netze in Code
Ein Entwickler hat eine Programmiersprache gebaut, die wie ein neuronales Netz rechnet — und zurück. Das Ergebnis: Man kann KI-Modelle in lesbaren Code übersetzen.
Was Sutra ist
Sutra ist eine typisierte, GPU-native Programmiersprache. Werte sind Vektoren, Programme kompilieren zu Tensor-Op-Graphen. Also genau das, was kleine neuronale Netze unter der Haube tun.
Der eigentliche Trick
Der Autor nennt es "round-trip compilation". Code wird zu einem Tensor-Graph kompiliert — und der Graph kann zurück in Code dekompiliert werden. Damit lassen sich trainierte Modelle theoretisch in menschenlesbare Programme übersetzen.
✅ Pro
- Frischer Ansatz für Interpretability
- Code und Paper sind öffentlich auf GitHub und arXiv
- Verbindung zu Hyperdimensional Computing ist intellektuell sauber
❌ Con
- Kein großes Lab, kein Peer Review
- Funktioniert bisher nur für sehr kleine Netze
- LessWrong-Post statt offizielle Veröffentlichung
💡 Was das bedeutet
Interpretability ist eines der heißesten Felder in der KI-Sicherheit. Wenn round-trip compilation skaliert, könnte man GPT-artige Modelle in tatsächlichen Code zerlegen statt in Aktivierungs-Voodoo. Großes Wenn.