469.000 Tests entlarven KI-Bullshit in Studien
Wissenschaftliche Papers behaupten viel — und belegen es mit Grafiken, Tabellen, Diagrammen. Aber checkt die KI auch wirklich, ob Bild und Behauptung zusammenpassen? Ein neuer Benchmark sagt: meistens nicht.
Was M2-Verify ist
Forscher haben einen Datensatz mit über 469.000 Beispielen gebaut. Jedes Beispiel: eine wissenschaftliche Behauptung plus multimodales Beweismaterial — Bilder, Charts, Tabellen. Die KI muss prüfen, ob Claim und Evidenz tatsächlich zusammenpassen.
Zahlenbox
- 469.000+** — Claim-Evidenz-Paare im Datensatz
- 2 Quellen** — PubMed (Medizin) und arXiv (Tech/Naturwissenschaft)
- Multimodal** — Text, Bilder, Grafiken, Tabellen kombiniert
Das Problem, das sie lösen wollen
Bisherige Benchmarks sind zu klein, zu einfach, zu einseitig. Ein Paper mit einer Balkendiagramm-Grafik behauptet "Methode A schlägt Methode B um 15%". Stimmt das mit dem Diagramm überein? Aktuelle KI-Modelle versagen bei genau dieser Aufgabe erschreckend oft.
✅ Pro
- Riesiger Datensatz — endlich statistische Relevanz
- Multi-Domain: Medizin UND Tech abgedeckt
- Testet eine Fähigkeit, die im echten Leben zählt
❌ Con
- Rein akademisch — kein Tool, kein Produkt, kein API-Zugang
- Noch kein Beweis, dass Modelle damit besser WERDEN
- PubMed und arXiv sind Nischen — was ist mit dem Rest?
💡 Was das bedeutet
Faktencheck für wissenschaftliche Papers ist ein echtes Problem. Peer Review ist langsam und fehleranfällig. Wenn KI-Modelle lernen, Behauptungen automatisch gegen ihre eigenen Grafiken zu prüfen, könnte das Bullshit-Papers schneller auffliegen lassen. Aber dafür muss erst jemand diesen Benchmark nehmen und Modelle damit trainieren — und da liegt der Haken.