Microsoft killt klickende Web-Agenten mit Code
Microsoft Research hat Webwright veröffentlicht — ein Open-Source-Framework, das Web-Agenten nicht mehr Klick für Klick steuert, sondern sie Code schreiben lässt. Das Ergebnis: 60,1% auf dem Odyssey-Benchmark.
Was Webwright anders macht
Klassische Web-Agenten arbeiten Action-für-Action. Screenshot rein, ein Klick raus, nächste Runde. Das war sinnvoll, als Modelle noch nicht programmieren konnten — heute ist es eine Bremse.
Webwright dreht den Spieß um. Der Agent bekommt ein Terminal, schreibt Code, debuggt sich selbst und navigiert das Web in Schleifen statt in Einzelschritten.
Zahlenbox
- 60,1%** — Webwright auf Odyssey
- 33,5%** — Base GPT-5 auf demselben Benchmark
- +26,6 Punkte** — der Sprung durch das Framework allein
- Open Source** — Code öffentlich verfügbar
⚖️ Webwright vs. klassische Web-Agenten
- Steuerung:** Code statt Einzel-Clicks
- Fehlerbehandlung:** Agent debuggt selbst, kein blindes Wiederholen
- Geschwindigkeit:** Schleifen statt Schritt-für-Schritt-Wartezeiten
- Reasoning-Nutzung:** Voll ausgeschöpft, nicht künstlich gedrosselt
💡 Was das bedeutet
Wer Agenten baut, sollte das Action-Loop-Pattern hinterfragen. Microsoft zeigt: Ein gutes Modell + Terminal schlägt teure Vision-Click-Pipelines deutlich. Das verschiebt den Standard für die ganze Branche.