KI-Modelle kassieren Topwerte in Benchmarks — ohne eine einzige Aufgabe zu lösen. Forscher haben gezeigt: Die Scores lassen sich mit wenigen Handgriffen frisieren.
Mark Zuckerberg hat ein neues Spielzeug. Muse Spark heißt Metas erstes Modell nach dem großen KI-Umbau — und die Benchmark-Ergebnisse lassen aufhorchen.
Cohere hat ein neues Spracherkennungsmodell veröffentlicht. Open Source, frei verfügbar — und laut Benchmarks besser als alles, was bisher auf dem Markt ist. Auch OpenAIs Whisper ...
Cerebras Systems ist an die Börse gegangen — und Benchmark sowie Eclipse kassieren Milliarden. Der Chip-Hersteller aus dem Silicon Valley liefert den größten KI-Hardware-Exit des ...
Forscher haben CL-bench Life vorgestellt — einen Test, der prüft, ob Sprachmodelle aus echten Lebenskontexten lernen können. Klingt nach Labor, ist aber relevanter als der nächste ...
Anthropic hat einen neuen Benchmark gebaut — und der eigene Agent räumt ab. BioMysteryBench testet Claude an echten Forschungsproblemen aus der Bioinformatik.
OpenAI hat sich mit GPT-5.5 die Benchmark-Krone zurückgeholt. Platz 1 in den wichtigsten Rankings — aber der Preis dafür ist wortwörtlich höher.
Moonshot AI aus China knallt ein neues Open-Weight-Modell auf den Markt. Kimi K2.6 soll in Coding-Benchmarks direkt mit GPT-5.4 und Claude Opus 4.6 mithalten — und nebenbei bis zu ...
Anthropic hat ein neues Topmodell. Claude Opus 4.7 soll vor allem beim Programmieren besser sein als sein Vorgänger — und die Benchmarks sollen das belegen.
Moderne KI-Systeme können Software mit tausenden Zeilen Code reverse-engineeren. Das zeigt MirrorCode, ein neuer Benchmark von METR und Epoch — zwei der wichtigsten ...
Die Mobilfunk-Branche will wissen, ob ihre KI-Agenten auch wirklich funktionieren. Forscher haben mit TelcoAgent-Bench einen Testrahmen gebaut, der genau das prüfen soll — auf ...
Microsofts Bing-Team hat ein neues Embedding-Modell als Open Source veröffentlicht. Name: Harrier. Ergebnis: Platz 1 im mehrsprachigen MTEB-v2-Benchmark.
Forscher haben MMPAD veröffentlicht — ein Open-Source-System, das Zeitreihen-Daten automatisch nach Anomalien durchforstet. Basis: die Matrix-Profile-Methode, aufgebohrt für den ...
Forscher haben einen neuen Benchmark gebaut, der große Sprachmodelle gegen klassische Methoden der Wirkstoffforschung antreten lässt. Name: DrugPlayGround.
LLMs sollen unsere lebenslangen Assistenten werden. Aber woher wissen wir, ob sie sich tatsächlich merken, was wir ihnen erzählen? Ein neuer Benchmark will genau das messen.
GPT-5, Gemini 3 Pro, Claude Opus 4.5 — sie alle liefern detaillierte medizinische Diagnosen. Auch wenn man ihnen gar kein Bild schickt. Stanford hat's bewiesen.
Stell dir vor, dein Arzt diagnostiziert dich — ohne dich jemals angeschaut zu haben. Genau das machen aktuelle KI-Modelle. Ein neues Stanford-Paper zerreißt die Illusion vom ...
Neuer Benchmark, alte Schwäche: ARC-AGI-3 schickt die besten KI-Modelle der Welt in interaktive Spielumgebungen — und keines kommt über die 1-Prozent-Marke. Aufgaben, die Menschen ...
Together AI hat einen neuen Benchmark vorgestellt, der KI-Agenten vor eine brutale Aufgabe stellt: echte Ereignisse vorhersagen, bevor sie passieren. Kein Auswendiglernen, kein ...
SWE-bench war der Goldstandard für KI-Coding-Agenten. Problem: Viele der Aufgaben darin waren fehlerhaft, schlecht formuliert oder schlicht unlösbar. OpenAI hat jetzt aufgeräumt.