Suche: SWE-Bench

AGENTS

OpenAI macht den Coding-Benchmark ehrlicher

SWE-bench war der Goldstandard für KI-Coding-Agenten. Problem: Viele der Aufgaben darin waren fehlerhaft, schlecht formuliert oder schlicht unlösbar. OpenAI hat jetzt aufgeräumt.

OpenAI News · 2026-03-23 12:20:21.777077+00:00 · Score 6/10

AGENTS

Poolside knackt 72,5% auf SWE-Bench

Poolside AI hat zwei neue Coding-Modelle releast — Laguna M.1 und XS.2. Beide setzen direkt zum Angriff auf die etablierten Agent-Modelle an.

MarkTechPost · 2026-04-30 07:19:55.326603+00:00 · Score 8/10

AGENTS

Qwen3-Coder will Claude beim Coden schlagen

Alibabas neues Coding-Modell ist da — und die Benchmarks lesen sich wie eine Kampfansage. Qwen3-Coder tritt direkt gegen Claude Sonnet 4 an. Auf dem SWE-bench, dem härtesten Test ...

Together AI Blog · 2026-03-23 15:37:57.356929+00:00 · Score 8/10

HOT

Claude Opus 4.7: Anthropics neues Flaggschiff liefert Zahlen

Anthropic hat letzte Woche Claude Opus 4.7 veröffentlicht. Zwei Monate nach dem Vorgänger. Die Benchmarks klingen solide — aber die eigentliche Story steckt tiefer.

TheSequence · 2026-04-23 01:22:43.111701+00:00 · Score 6/10

HOT

DeepSeek-V3.1 knackt 66% auf SWE-bench

Together AI stellt DeepSeek-V3.1 ab sofort auf seiner Plattform bereit. Ein Open-Source-Modell mit MIT-Lizenz, das zwischen Denken und Nicht-Denken umschalten kann.

Together AI Blog · 2026-03-23 18:18:16.844177+00:00 · Score 8/10

HOT

Anthropic dropt Opus 4.7 — Coder-Upgrade mit Ansage

Anthropic hat ein neues Topmodell. Claude Opus 4.7 soll vor allem beim Programmieren besser sein als sein Vorgänger — und die Benchmarks sollen das belegen.

Golem KI · 2026-04-17 07:19:19.594233+00:00 · Score 8/10

HOT

Claude Opus 4.7 codet besser, hackt schlechter

Anthropic schiebt das neue Spitzenmodell raus. Coding-Skills hoch, Cyber-Skills runter — ganz bewusst.

The Decoder · 2026-04-16 16:18:20.442599+00:00 · Score 7/10

AGENTS

OpenAI gräbt 10 Jahre altes Projekt aus

OpenAI hat „Universe" veröffentlicht. Eine Plattform, die KI an Games, Websites und Apps trainieren soll. Klingt nach dem großen Wurf. Ist es aber nicht.

OpenAI News · 2026-03-22 01:36:27.722040+00:00 · Score 4/10

SUCHE

OpenAI macht den Coding-Benchmark ehrlicher

Poolside knackt 72,5% auf SWE-Bench

Qwen3-Coder will Claude beim Coden schlagen

Claude Opus 4.7: Anthropics neues Flaggschiff liefert Zahlen

DeepSeek-V3.1 knackt 66% auf SWE-bench

Anthropic dropt Opus 4.7 — Coder-Upgrade mit Ansage

Claude Opus 4.7 codet besser, hackt schlechter

OpenAI gräbt 10 Jahre altes Projekt aus