Claude Opus 4.7: Anthropics neues Flaggschiff liefert Zahlen
Anthropic hat letzte Woche Claude Opus 4.7 veröffentlicht. Zwei Monate nach dem Vorgänger. Die Benchmarks klingen solide — aber die eigentliche Story steckt tiefer.
Die harten Zahlen
- 87,6%** — SWE-bench Verified (Coding-Benchmark)
- 64,3%** — SWE-bench Pro
- +14,6 Prozentpunkte** — Verbesserung auf MCP-Atlas
- 98,5%** — XBOW Visual Acuity (vorher: 54,5%)
- State of the Art** — auf GDPval-AA für ökonomisch wertvolle Wissensarbeit
Was besser wurde
Opus 4.7 ist kein großer Sprung. Es ist ein inkrementelles Update. Aber an den richtigen Stellen. Visuelles Verständnis? Von 54,5% auf 98,5% bei XBOW — fast verdoppelt. Dokument-Reasoning und Finanz-Analysen: rauf. MCP-Atlas, also Tool-Nutzung durch Agents: deutlich besser.
✅ Pro
- Coding-Benchmarks auf Top-Niveau
- Visuelles Verständnis massiv verbessert
- Agent-Fähigkeiten (MCP) klar gestärkt
❌ Con
- BrowseComp-Werte runter
- Long-Context Multi-Needle Retrieval schwächer
- Nur zwei Monate nach Opus 4.6 — Upgrade-Müdigkeit droht
Was das bedeutet
Die reinen Benchmark-Zahlen erzählen nicht die ganze Geschichte. Anthropic schleift an den Stellen, die für echte Arbeit zählen: Agents, die Tools benutzen. Modelle, die Dokumente und Bilder wirklich verstehen. Dass dabei BrowseComp und Long-Context-Retrieval nachgeben, zeigt: Auch Anthropic muss Tradeoffs machen. Kein Modell kann überall gleichzeitig gewinnen.