Google misst, wie schlecht KI-Modelle lügen
DeepMind hat einen neuen Benchmark vorgestellt: FACTS Grounding. Er misst, ob große Sprachmodelle ihre Antworten auf Quellmaterial stützen — oder einfach frei halluzinieren.
Was FACTS Grounding macht
Das Prinzip ist simpel. Ein Modell bekommt ein Dokument und eine Aufgabe. Dann wird geprüft: Hat es sich an die Fakten gehalten oder Unsinn dazugedichtet?
- Name:** FACTS Grounding
- Ersteller:** Google DeepMind
- Ziel:** Faktentreue von LLMs messen
- Öffentlich:** Ja, mit Online-Leaderboard
Warum das überfällig war
Halluzinationen sind das größte ungelöste Problem großer Sprachmodelle. Jeder redet darüber, aber bisher fehlte ein standardisierter Test. Kein einheitlicher Maßstab, kein Vergleich, kein Druck auf die Hersteller.
FACTS Grounding liefert genau das. Ein öffentliches Leaderboard zwingt OpenAI, Anthropic, Meta und alle anderen, sich dem Vergleich zu stellen. Wer schlecht abschneidet, kann sich nicht mehr hinter Marketing-Phrasen verstecken.
Der Haken
Google testet hier seine eigene Branche — und natürlich auch seine eigenen Modelle. Wer den Benchmark baut, kennt die Regeln am besten. Das ist kein Betrug, aber ein Heimvorteil.