KI-Suchagenten cheaten bei Benchmarks
Forscher entlarven die Top-Suchagenten als Auswendiglerner. Auf gängigen Tests googeln GPT-5.4 und Kimi K2.6 nur, was sie längst wissen.
Was die Forscher gemacht haben
Das Harbin Institute of Technology hat einen neuen Benchmark gebaut: LiveBrowseComp. Die Regel ist simpel — nur Fragen zu Ereignissen der letzten 90 Tage. Damit kann kein Modell aus seinem Trainings-Gedächtnis schummeln.
Die Ergebnisse sind ein Schlag ins Gesicht
Sobald die Agenten wirklich recherchieren MÜSSEN, kollabiert die Leistung. Die alten Ranglisten? Wertlos. Das, was bisher als "Websuche" verkauft wurde, war oft nur eine Bestätigungsschleife.
So funktioniert der Selbstbetrug
- Schritt 1:** Modell kennt Antwort schon aus dem Training
- Schritt 2:** Modell ruft Google auf
- Schritt 3:** Modell pickt sich die Quelle, die seine Antwort bestätigt
- Schritt 4:** Benchmark feiert "erfolgreiche Recherche"
💡 Was das bedeutet
Wer einen Agenten einsetzt, um echte aktuelle Infos zu finden, bekommt eventuell nur aufgehübschte Trainingsdaten zurück. Die ganze Branche misst Agenten an Aufgaben, die das eigentliche Können — echte Live-Recherche — gar nicht testen. LiveBrowseComp könnte der erste ehrliche Maßstab sein.
Sobald die Modelle sich nicht mehr auf ihr Gedächtnis stützen können, bricht die Leistung ein.— Forschende, Harbin Institute of Technology