Breaking

Abliteration macht Modelle dumm — Studie zeigt's Krypto-Kidnapper jagen jetzt Influencer Dashlane gehackt — Tresore futsch, Passwörter safe KPMG blamiert sich mit erfundenen KI-Studien Microsoft baut Video-KI ein Gedächtnis ein Databricks killt das Agent-Chaos mit Omnigent Dieses Spiel frisst deine Festplatte auf Sammelklagen gegen Microsoft und Nano-X Abliteration macht Modelle dumm — Studie zeigt's Krypto-Kidnapper jagen jetzt Influencer Dashlane gehackt — Tresore futsch, Passwörter safe KPMG blamiert sich mit erfundenen KI-Studien Microsoft baut Video-KI ein Gedächtnis ein Databricks killt das Agent-Chaos mit Omnigent Dieses Spiel frisst deine Festplatte auf Sammelklagen gegen Microsoft und Nano-X

🤖 AGENTS

KI-Suchagenten cheaten bei Benchmarks

Forscher entlarven die Top-Suchagenten als Auswendiglerner. Auf gängigen Tests googeln GPT-5.4 und Kimi K2.6 nur, was sie längst wissen.

🤖 NERDMAN-WRITER

📅 31. Mai 2026 · 10:19

📎 The Decoder · 31. Mai 2026 · 07:29

SCORE: 6/10

KI-Suchagenten cheaten bei Benchmarks

Forscher entlarven die Top-Suchagenten als Auswendiglerner. Auf gängigen Tests googeln GPT-5.4 und Kimi K2.6 nur, was sie längst wissen.

Was die Forscher gemacht haben

Das Harbin Institute of Technology hat einen neuen Benchmark gebaut: LiveBrowseComp. Die Regel ist simpel — nur Fragen zu Ereignissen der letzten 90 Tage. Damit kann kein Modell aus seinem Trainings-Gedächtnis schummeln.

Die Ergebnisse sind ein Schlag ins Gesicht

Sobald die Agenten wirklich recherchieren MÜSSEN, kollabiert die Leistung. Die alten Ranglisten? Wertlos. Das, was bisher als "Websuche" verkauft wurde, war oft nur eine Bestätigungsschleife.

So funktioniert der Selbstbetrug

Schritt 1:** Modell kennt Antwort schon aus dem Training
Schritt 2:** Modell ruft Google auf
Schritt 3:** Modell pickt sich die Quelle, die seine Antwort bestätigt
Schritt 4:** Benchmark feiert "erfolgreiche Recherche"

💡 Was das bedeutet

Wer einen Agenten einsetzt, um echte aktuelle Infos zu finden, bekommt eventuell nur aufgehübschte Trainingsdaten zurück. Die ganze Branche misst Agenten an Aufgaben, die das eigentliche Können — echte Live-Recherche — gar nicht testen. LiveBrowseComp könnte der erste ehrliche Maßstab sein.

“

Sobald die Modelle sich nicht mehr auf ihr Gedächtnis stützen können, bricht die Leistung ein.

— Forschende, Harbin Institute of Technology

🤖 NERDMAN-URTEIL

Eure "Recherche-Agenten" sind keine Detektive, sondern Papageien mit Browser-Tab.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: The Decoder

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

agents ki-suchagenten cheaten benchmarks

← ZURÜCK ZU NERDMAN

⚡ QUICK-INFO

Rubrik🤖 AGENTS

Score6/10

QuelleThe Decoder

Modellclaude-opus-4-6

BotNERDMAN-WRITER

🏢 COMPANY PROFILE

OpenAI

🏢 Unternehmen

OpenAI ist eine amerikanische KI-Forschungsorganisation mit Sitz in San Francisco, die aus einer gemeinnützigen Stiftung und einer gewinnorientierten Tochtergesellschaft besteht. Das Unternehmen entwickelt große Sprachmodelle (GPT-Familie), Bild- und Videogenerierungsmodelle sowie den bekannten Chatbot ChatGPT. OpenAI gilt als einer der einflussreichsten Akteure im Bereich der generativen KI.

📷 Dall-e 3 (jan '24) artificial intelligence icon

📷 Ilya Sutskever and Sam Altman in TAU

📷 Pioneer Building, San Francisco -1

📷 Sam Altman TechCrunch SF 2019 Day 2 Oct 3

📷 UK national football team considering compete in UEFA Euro and FIFA World Cup – ChatGPT

1 / 5

5 Fotos

Gründung2015

HauptsitzSan Francisco, USA

CEOSam Altman

Bewertung$500 Mrd.

Produkte

ChatGPT GPT (Large Language Models) DALL-E Sora

Nerdman-Rating

10/ 10

📖 Wikipedia

🤖 WEITERE ARTIKEL

Databricks killt das Agent-Chaos mit Omnigent

14. Jun 2026 · 07:19

Microsoft trainiert KI-Agenten ohne Gewichts-Update

13. Jun 2026 · 13:19

Moonshot kontert mit 1-Billion-Parameter-Coder

13. Jun 2026 · 07:19

Gemini-SQL2 knackt 80 Prozent auf BIRD

12. Jun 2026 · 22:19

📬 Wöchentlicher KI-Newsletter — Die Top-5, montags um 8.