MolmoWeb steuert Websites nur per Screenshot
Ein Open-Source-Agent, der Websites bedient — ohne den HTML-Code zu lesen. MolmoWeb schaut sich einfach den Bildschirm an. Wie ein Mensch.
So funktioniert's
Das Forschungsteam hinter Molmo geht einen radikal anderen Weg als die meisten Web-Agenten. Statt sich durch den DOM-Tree zu wühlen, arbeitet MolmoWeb ausschließlich mit Screenshots. Das Modell sieht, was du siehst — und klickt sich durch.
Warum das wichtig ist
Die meisten Web-Agenten brauchen Zugriff auf den Quellcode einer Website. Das ist fragil, langsam und bricht bei jeder kleinen Änderung. Ein rein visueller Ansatz ist robuster — und näher daran, wie Menschen tatsächlich mit dem Web interagieren.
✅ Pro
- Open Source — jeder kann es nutzen und verbessern
- Kompakte Modelle, kein Milliarden-Parameter-Monster nötig
- Schlägt teilweise größere proprietäre Systeme in Benchmarks
❌ Con
- Screenshot-basiert heißt: bei jedem Schritt ein Bild verarbeiten — das kostet Rechenzeit
- Rein visuelle Erkennung kann bei ungewöhnlichen Layouts scheitern
- Noch Forschungsprojekt, kein fertiges Produkt
💡 Was das bedeutet
Open-Weight-Modelle holen bei Web-Agenten auf. Wenn ein kompaktes Open-Source-Modell proprietäre Systeme schlägt, wird es für geschlossene Anbieter eng. Für Entwickler heißt das: endlich ein Web-Agent, den man lokal laufen und anpassen kann.