Microsoft testet, ob KI-Roboter wirklich planen können
Roboter sollen aufräumen, kochen, Sachen sortieren. Klingt einfach — ist es nicht. Microsoft Research zeigt jetzt, wo Vision-Language-Models bei komplexen Aufgaben komplett versagen.
Das Problem
Wenn ein Roboter "Stell die Tasse auf den Tisch" hört, muss er zwei Dinge gleichzeitig können: Die Aktion verstehen UND den Ort bestimmen. Bei einfachen Befehlen klappt das. Bei langen Aufgabenketten mit mehreren Schritten? Totalausfall.
Natürliche Sprache ist mehrdeutig. "Neben die Schüssel" kann alles heißen. Für einen Roboterarm ist das tödlich.
Was GroundedPlanBench macht
Microsoft hat einen Benchmark gebaut, der genau das testet: Können VLMs (Vision-Language-Models) Aktionen planen UND gleichzeitig räumlich verorten — über mehrere Schritte hinweg, in realen Roboter-Szenarien?
- Aufgaben:** Lange, mehrstufige Manipulationsaufgaben aus echten Roboter-Setups
- Test:** Nicht nur WAS der Roboter tun soll, sondern WO genau
- Ergebnis:** Die meisten Modelle scheitern, sobald die Ketten länger werden
Das Framework: V2GP
Dazu liefert Microsoft ein Training-Framework namens Video-to-Spatially Grounded Planning (V2GP). Die Idee:
- Roboter-Demo-Videos werden automatisch in räumlich verankerte Trainingsdaten umgewandelt
- Modelle lernen daraus, Planung und räumliche Verortung zu kombinieren
- Kein manuelles Labeling nötig — das System generiert die Daten selbst aus Videos
💡 Was das bedeutet
Wer glaubt, man müsse einem Roboter nur ein gutes Sprachmodell geben und dann räumt der die Küche auf, bekommt hier die kalte Dusche. Zwischen "Text verstehen" und "im Raum handeln" klafft eine riesige Lücke. Microsofts Benchmark macht diese Lücke erstmals messbar.
✅ Pro
- Systematischer Test für ein echtes Kernproblem der Robotik
- V2GP-Framework erzeugt Trainingsdaten ohne teures manuelles Labeling
- Open-Research-Ansatz, den andere Teams nutzen können
❌ Con
- Reiner Benchmark — kein Produkt, kein Roboter, den man kaufen kann
- Ergebnisse zeigen vor allem, wie schlecht der Stand ist
- Vom Labor zur Küche ist es noch ein weiter Weg