SWE-bench war der Goldstandard für KI-Coding-Agenten. Problem: Viele der Aufgaben darin waren fehlerhaft, schlecht formuliert oder schlicht unlösbar. OpenAI hat jetzt aufgeräumt.
Poolside AI hat zwei neue Coding-Modelle releast — Laguna M.1 und XS.2. Beide setzen direkt zum Angriff auf die etablierten Agent-Modelle an.
Alibabas neues Coding-Modell ist da — und die Benchmarks lesen sich wie eine Kampfansage. Qwen3-Coder tritt direkt gegen Claude Sonnet 4 an. Auf dem SWE-bench, dem härtesten Test ...
Anthropic hat letzte Woche Claude Opus 4.7 veröffentlicht. Zwei Monate nach dem Vorgänger. Die Benchmarks klingen solide — aber die eigentliche Story steckt tiefer.
Together AI stellt DeepSeek-V3.1 ab sofort auf seiner Plattform bereit. Ein Open-Source-Modell mit MIT-Lizenz, das zwischen Denken und Nicht-Denken umschalten kann.
Anthropic hat ein neues Topmodell. Claude Opus 4.7 soll vor allem beim Programmieren besser sein als sein Vorgänger — und die Benchmarks sollen das belegen.
Anthropic schiebt das neue Spitzenmodell raus. Coding-Skills hoch, Cyber-Skills runter — ganz bewusst.
OpenAI hat „Universe" veröffentlicht. Eine Plattform, die KI an Games, Websites und Apps trainieren soll. Klingt nach dem großen Wurf. Ist es aber nicht.