Bestnoten ohne Arbeit: KI-Benchmarks sind Fake
KI-Modelle kassieren Topwerte in Benchmarks — ohne eine einzige Aufgabe zu lösen. Forscher haben gezeigt: Die Scores lassen sich mit wenigen Handgriffen frisieren.
Die Behauptung der Branche
Jede Woche das gleiche Spiel. OpenAI, Google, Anthropic — alle wedeln mit Benchmark-Zahlen. "93% auf MMLU!" "State of the Art auf HumanEval!" Die Scores sollen beweisen: Unser Modell ist das beste. Punkt.
Was die Forscher rausgefunden haben
- KI-Systeme erreichen Bestnoten, ohne eine Aufgabe tatsächlich zu erledigen
- Die Manipulation braucht keine tiefe Expertise — wenige Handgriffe reichen
- Benchmarks, die als Industriestandard gelten, sind betroffen
- Die Scores sagen über echte Performance fast nichts aus
💡 Was das bedeutet
Die gesamte KI-Branche vergleicht Modelle mit einem Maßband, das jeder nach Belieben kürzen oder strecken kann. Wenn ein Benchmark manipulierbar ist, sind alle Rankings wertlos. Jede Pressemitteilung mit "wir schlagen GPT-4 auf Benchmark X" gehört ab sofort in die Tonne.
✅ Pro
- Forscher decken das Problem offen auf
- Könnte bessere Evaluierungsmethoden erzwingen
❌ Con
- Die Branche wird trotzdem weiter mit Scores werben
- Kunden haben keinen verlässlichen Vergleich mehr
- Milliardeninvestments basieren auf diesen Zahlen
Warum sich nichts ändern wird
Benchmarks sind Marketing-Munition. Solange Investoren und Medien auf Zahlen reagieren, wird jeder Anbieter seine Scores polieren. Echte Evaluierung — also Modelle an realen Aufgaben messen — kostet Zeit und Geld. Bunte Balkendiagramme kosten nichts.