Qwen3-Coder will Claude beim Coden schlagen
Alibabas neues Coding-Modell ist da — und die Benchmarks lesen sich wie eine Kampfansage. Qwen3-Coder tritt direkt gegen Claude Sonnet 4 an. Auf dem SWE-bench, dem härtesten Test für Code-Agenten.
Die Eckdaten
- Modell:** Qwen3-Coder von Alibaba/Qwen-Team
- Kontextfenster:** 256K Tokens — das schluckt ganze Codebases
- Benchmark:** SWE-bench-Ergebnisse auf Augenhöhe mit Claude Sonnet 4
- Verfügbar:** Sofort über Together AI, kein Setup nötig
Warum Das Wichtig Ist
Der SWE-bench simuliert echte Software-Engineering-Aufgaben. Keine Spielzeug-Prompts, sondern reale GitHub-Issues mit realen Repos. Wer hier punktet, kann tatsächlich Code schreiben — nicht nur darüber reden.
Dass ein Open-Weight-Modell aus China hier mit Anthropics bestem Coding-Modell mithalten will, ist eine Ansage. Together AI bietet das Ding direkt zum Deployen an. Kein Gefummel, kein Warten.
Der Haken
256K Context klingt fett. Aber Context-Länge allein macht noch keinen guten Agenten. Die Frage ist: Wie gut navigiert Qwen3-Coder durch fremden Code, wenn es nicht nur lesen, sondern auch verstehen und ändern muss? SWE-bench-Zahlen sind ein Anfang. Der Praxistest kommt erst noch.