OpenAI macht den Coding-Benchmark ehrlicher
SWE-bench war der Goldstandard für KI-Coding-Agenten. Problem: Viele der Aufgaben darin waren fehlerhaft, schlecht formuliert oder schlicht unlösbar. OpenAI hat jetzt aufgeräumt.
Was SWE-bench Verified anders macht
OpenAI ließ menschliche Software-Entwickler den bestehenden SWE-bench-Datensatz durchgehen. Ergebnis: ein bereinigtes Subset, das zuverlässiger misst, ob ein KI-Modell echte Software-Bugs lösen kann.
- Was:** Ein von Menschen validiertes Subset von SWE-bench
- Warum:** Der Original-Datensatz enthielt fehlerhafte und unklare Aufgaben
- Wer validiert:** Echte Software-Entwickler, nicht KI
Warum das wichtig ist
Benchmarks sind die Währung der KI-Branche. Wenn der Benchmark Müll misst, sind die Ergebnisse wertlos. Jedes Unternehmen prahlte mit SWE-bench-Scores — aber niemand fragte, ob die Testfälle überhaupt sauber waren.
Mit SWE-bench Verified gibt es jetzt eine härtere, aber fairere Messlatte. Modelle, die vorher gut aussahen, könnten plötzlich schlechter dastehen.
Der Elefant im Raum
OpenAI veröffentlicht einen Benchmark, der OpenAIs eigene Modelle bewertet. Das ist wie ein Schüler, der seine eigene Klausur schreibt. Fairerweise: Der Datensatz ist öffentlich, jeder kann nachprüfen. Aber gesunde Skepsis ist Pflicht.