KI knackt tausende Zeilen Code — einfach rückwärts
Moderne KI-Systeme können Software mit tausenden Zeilen Code reverse-engineeren. Das zeigt MirrorCode, ein neuer Benchmark von METR und Epoch — zwei der wichtigsten KI-Messorganisationen der Welt.
Was MirrorCode testet
Der Benchmark prüft sogenannte "Long-Horizon Capabilities" — also ob ein KI-Agent über lange Zeiträume komplexe Aufgaben durchhalten kann. Keine Quick-Fixes, keine Einzeiler. Sondern echtes Reverse Engineering ganzer Codebases.
💡 Was das bedeutet
Bisher galten solche Aufgaben als zu komplex für KI-Agenten. Wer tausende Zeilen fremden Code verstehen will, braucht Geduld, Kontext und Strategie. Dass aktuelle Modelle das schaffen, verschiebt die Grenze dessen, was Agenten autonom leisten können — und macht gleichzeitig klar, wie leicht Software-Schutzmaßnahmen fallen könnten.
Die Fakten
- Benchmark:** MirrorCode
- Ersteller:** METR + Epoch (unabhängige KI-Messorganisationen)
- Fokus:** Long-Horizon Code Reverse Engineering
- Umfang:** Software mit tausenden Zeilen Code
- Ergebnis:** Aktuelle KI-Systeme bestehen die Tests
✅ Pro
- Endlich ein Benchmark für echte Langzeit-Agenten-Fähigkeiten
- METR und Epoch sind unabhängig — kein Vendor-Marketing
- Zeigt reale Capabilities statt synthetischer Toy-Problems
❌ Con
- Reverse Engineering in den falschen Händen ist ein Sicherheitsrisiko
- Details zu konkreten Modell-Scores fehlen in der Zusammenfassung
- Benchmark könnte Wettrüsten um Agenten-Fähigkeiten weiter anheizen
Randnotiz
Jack Clark, der Import-AI-Autor und Mitgründer von Anthropic, hat den Newsletter diese Woche kürzer gehalten als üblich. Der Grund: Er war auf der Bilderberg-Konferenz 2026. Wo KI-Policy gemacht wird, sitzt Clark offenbar mit am Tisch.