Suche: Benchmarks

BULLSHIT

Bestnoten ohne Arbeit: KI-Benchmarks sind Fake

KI-Modelle kassieren Topwerte in Benchmarks — ohne eine einzige Aufgabe zu lösen. Forscher haben gezeigt: Die Scores lassen sich mit wenigen Handgriffen frisieren.

t3n · 2026-04-13 13:18:53.042431+00:00 · Score 6/10

HOT

Claude Opus 4.8 ist da — Anthropic kontert

Anthropic hat Claude Opus 4.8 gedroppt. Zvi Mowshowitz hat sich durch Dutzende Benchmarks und Model-Card-Tests gewühlt — und liefert das, was Twitter-Hottakes nicht können: ...

Zvi Mowshowitz · 2026-06-02 16:18:57.199869+00:00 · Score 7/10

HOT

Meta schlägt zurück: Muse Spark mischt Benchmarks auf

Mark Zuckerberg hat ein neues Spielzeug. Muse Spark heißt Metas erstes Modell nach dem großen KI-Umbau — und die Benchmark-Ergebnisse lassen aufhorchen.

Wired AI · 2026-04-08 19:18:22.230834+00:00 · Score 7/10

TOOLS

Cohere knackt Whisper mit Open-Source-Modell

Cohere hat ein neues Spracherkennungsmodell veröffentlicht. Open Source, frei verfügbar — und laut Benchmarks besser als alles, was bisher auf dem Markt ist. Auch OpenAIs Whisper ...

The Decoder · 2026-03-30 01:38:53.809617+00:00 · Score 7/10

GELD

Cerebras-IPO macht Investoren zu Milliardären

Cerebras Systems ist an die Börse gegangen — und Benchmark sowie Eclipse kassieren Milliarden. Der Chip-Hersteller aus dem Silicon Valley liefert den größten KI-Hardware-Exit des ...

Bloomberg Technology · 2026-05-15 04:23:21.650955+00:00 · Score 6/10

EXPERIMENTAL

Neuer Benchmark testet KI im Alltag

Forscher haben CL-bench Life vorgestellt — einen Test, der prüft, ob Sprachmodelle aus echten Lebenskontexten lernen können. Klingt nach Labor, ist aber relevanter als der nächste ...

arXiv AI/ML/NLP · 2026-05-02 01:19:45.014622+00:00 · Score 2/10

AGENTS

Claude löst, woran fünf Bioinformatiker scheiterten

Anthropic hat einen neuen Benchmark gebaut — und der eigene Agent räumt ab. BioMysteryBench testet Claude an echten Forschungsproblemen aus der Bioinformatik.

The Decoder · 2026-04-30 13:15:53.519663+00:00 · Score 7/10

TOOLS

GPT-5.5 führt Ranglisten an — halluziniert aber mehr

OpenAI hat sich mit GPT-5.5 die Benchmark-Krone zurückgeholt. Platz 1 in den wichtigsten Rankings — aber der Preis dafür ist wortwörtlich höher.

The Decoder · 2026-04-24 16:17:06.941834+00:00 · Score 6/10

AGENTS

Kimi K2.6 steuert 300 Agenten gleichzeitig

Moonshot AI aus China knallt ein neues Open-Weight-Modell auf den Markt. Kimi K2.6 soll in Coding-Benchmarks direkt mit GPT-5.4 und Claude Opus 4.6 mithalten — und nebenbei bis zu ...

The Decoder · 2026-04-20 19:19:22.954818+00:00 · Score 9/10

HOT

Anthropic dropt Opus 4.7 — Coder-Upgrade mit Ansage

Anthropic hat ein neues Topmodell. Claude Opus 4.7 soll vor allem beim Programmieren besser sein als sein Vorgänger — und die Benchmarks sollen das belegen.

Golem KI · 2026-04-17 07:19:19.594233+00:00 · Score 8/10

AGENTS

KI knackt tausende Zeilen Code — einfach rückwärts

Moderne KI-Systeme können Software mit tausenden Zeilen Code reverse-engineeren. Das zeigt MirrorCode, ein neuer Benchmark von METR und Epoch — zwei der wichtigsten ...

Import AI (Jack Clark) · 2026-04-13 16:20:14.681874+00:00 · Score 6/10

EXPERIMENTAL

Telekom-KI bekommt eigenen Benchmark

Die Mobilfunk-Branche will wissen, ob ihre KI-Agenten auch wirklich funktionieren. Forscher haben mit TelcoAgent-Bench einen Testrahmen gebaut, der genau das prüfen soll — auf ...

arXiv AI/ML/NLP · 2026-04-09 10:18:14.016885+00:00 · Score 3/10

TOOLS

Microsofts Harrier schnappt sich Platz 1 bei Embeddings

Microsofts Bing-Team hat ein neues Embedding-Modell als Open Source veröffentlicht. Name: Harrier. Ergebnis: Platz 1 im mehrsprachigen MTEB-v2-Benchmark.

The Decoder · 2026-04-07 19:20:25.263051+00:00 · Score 7/10

EXPERIMENTAL

Anomalie-Erkennung bekommt Open-Source-Benchmark

Forscher haben MMPAD veröffentlicht — ein Open-Source-System, das Zeitreihen-Daten automatisch nach Anomalien durchforstet. Basis: die Matrix-Profile-Methode, aufgebohrt für den ...

arXiv AI/ML/NLP · 2026-04-06 22:17:58.255542+00:00 · Score 2/10

EXPERIMENTAL

LLMs gegen Pharma-Labore: Wer findet Wirkstoffe schneller?

Forscher haben einen neuen Benchmark gebaut, der große Sprachmodelle gegen klassische Methoden der Wirkstoffforschung antreten lässt. Name: DrugPlayGround.

arXiv AI/ML/NLP · 2026-04-06 07:19:33.324602+00:00 · Score 2/10

EXPERIMENTAL

AlpsBench testet, ob KI dich wirklich kennt

LLMs sollen unsere lebenslangen Assistenten werden. Aber woher wissen wir, ob sie sich tatsächlich merken, was wir ihnen erzählen? Ein neuer Benchmark will genau das messen.

arXiv AI/ML/NLP · 2026-03-31 07:21:10.737197+00:00 · Score 2/10

BULLSHIT

KI-Docs diagnostizieren Krankheiten auf leeren Bildern

GPT-5, Gemini 3 Pro, Claude Opus 4.5 — sie alle liefern detaillierte medizinische Diagnosen. Auch wenn man ihnen gar kein Bild schickt. Stanford hat's bewiesen.

The Decoder · 2026-03-30 16:18:47.447277+00:00 · Score 7/10

BULLSHIT

KI beschreibt Bilder, die sie nie sah

Stell dir vor, dein Arzt diagnostiziert dich — ohne dich jemals angeschaut zu haben. Genau das machen aktuelle KI-Modelle. Ein neues Stanford-Paper zerreißt die Illusion vom ...

Gary Marcus · 2026-03-30 04:24:08.255629+00:00 · Score 7/10

AGENTS

ARC-AGI-3: Alle Top-Modelle scheitern unter 1 Prozent

Neuer Benchmark, alte Schwäche: ARC-AGI-3 schickt die besten KI-Modelle der Welt in interaktive Spielumgebungen — und keines kommt über die 1-Prozent-Marke. Aufgaben, die Menschen ...

The Decoder · 2026-03-26 14:21:07.333560+00:00 · Score 7/10

AGENTS

KI-Agenten müssen jetzt die Zukunft vorhersagen

Together AI hat einen neuen Benchmark vorgestellt, der KI-Agenten vor eine brutale Aufgabe stellt: echte Ereignisse vorhersagen, bevor sie passieren. Kein Auswendiglernen, kein ...

Together AI Blog · 2026-03-23 15:32:40.908177+00:00 · Score 6/10

SUCHE

Bestnoten ohne Arbeit: KI-Benchmarks sind Fake

Claude Opus 4.8 ist da — Anthropic kontert

Meta schlägt zurück: Muse Spark mischt Benchmarks auf

Cohere knackt Whisper mit Open-Source-Modell

Cerebras-IPO macht Investoren zu Milliardären

Neuer Benchmark testet KI im Alltag

Claude löst, woran fünf Bioinformatiker scheiterten

GPT-5.5 führt Ranglisten an — halluziniert aber mehr

Kimi K2.6 steuert 300 Agenten gleichzeitig

Anthropic dropt Opus 4.7 — Coder-Upgrade mit Ansage

KI knackt tausende Zeilen Code — einfach rückwärts

Telekom-KI bekommt eigenen Benchmark

Microsofts Harrier schnappt sich Platz 1 bei Embeddings

Anomalie-Erkennung bekommt Open-Source-Benchmark

LLMs gegen Pharma-Labore: Wer findet Wirkstoffe schneller?

AlpsBench testet, ob KI dich wirklich kennt

KI-Docs diagnostizieren Krankheiten auf leeren Bildern

KI beschreibt Bilder, die sie nie sah

ARC-AGI-3: Alle Top-Modelle scheitern unter 1 Prozent

KI-Agenten müssen jetzt die Zukunft vorhersagen