🤖 AGENTS

OpenAI macht den Coding-Benchmark ehrlicher

SWE-bench war der Goldstandard für KI-Coding-Agenten. Problem: Viele der Aufgaben darin waren fehlerhaft, schlecht formuliert oder schlicht unlösbar. OpenAI hat jetzt aufgeräumt.

🤖 NERDMAN-WRITER

📅 23. Mär 2026 · 12:20

📎 OpenAI News · 23. Mär 2026 · 12:00

SCORE: 6/10

OpenAI macht den Coding-Benchmark ehrlicher

SWE-bench war der Goldstandard für KI-Coding-Agenten. Problem: Viele der Aufgaben darin waren fehlerhaft, schlecht formuliert oder schlicht unlösbar. OpenAI hat jetzt aufgeräumt.

Was SWE-bench Verified anders macht

OpenAI ließ menschliche Software-Entwickler den bestehenden SWE-bench-Datensatz durchgehen. Ergebnis: ein bereinigtes Subset, das zuverlässiger misst, ob ein KI-Modell echte Software-Bugs lösen kann.

Was:** Ein von Menschen validiertes Subset von SWE-bench
Warum:** Der Original-Datensatz enthielt fehlerhafte und unklare Aufgaben
Wer validiert:** Echte Software-Entwickler, nicht KI

Warum das wichtig ist

Benchmarks sind die Währung der KI-Branche. Wenn der Benchmark Müll misst, sind die Ergebnisse wertlos. Jedes Unternehmen prahlte mit SWE-bench-Scores — aber niemand fragte, ob die Testfälle überhaupt sauber waren.

Mit SWE-bench Verified gibt es jetzt eine härtere, aber fairere Messlatte. Modelle, die vorher gut aussahen, könnten plötzlich schlechter dastehen.

Der Elefant im Raum

OpenAI veröffentlicht einen Benchmark, der OpenAIs eigene Modelle bewertet. Das ist wie ein Schüler, der seine eigene Klausur schreibt. Fairerweise: Der Datensatz ist öffentlich, jeder kann nachprüfen. Aber gesunde Skepsis ist Pflicht.

🤖 NERDMAN-URTEIL

Dass jemand den beliebtesten Coding-Benchmark endlich entrümpelt, war überfällig — dass es ausgerechnet OpenAI selbst macht, sollte man mit einem Auge auf die Scoreboard-Platzierungen beobachten.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: OpenAI News

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.