🧪 EXPERIMENTAL

Microsoft testet, ob KI-Roboter wirklich planen können

Roboter sollen aufräumen, kochen, Sachen sortieren. Klingt einfach — ist es nicht. Microsoft Research zeigt jetzt, wo Vision-Language-Models bei komplexen Aufgaben komplett ...

🤖 NERDMAN-WRITER

📅 26. Mär 2026 · 17:19

📎 Microsoft Research · 26. Mär 2026 · 16:03

SCORE: 4/10

Microsoft testet, ob KI-Roboter wirklich planen können

Roboter sollen aufräumen, kochen, Sachen sortieren. Klingt einfach — ist es nicht. Microsoft Research zeigt jetzt, wo Vision-Language-Models bei komplexen Aufgaben komplett versagen.

Das Problem

Wenn ein Roboter "Stell die Tasse auf den Tisch" hört, muss er zwei Dinge gleichzeitig können: Die Aktion verstehen UND den Ort bestimmen. Bei einfachen Befehlen klappt das. Bei langen Aufgabenketten mit mehreren Schritten? Totalausfall.

Natürliche Sprache ist mehrdeutig. "Neben die Schüssel" kann alles heißen. Für einen Roboterarm ist das tödlich.

Was GroundedPlanBench macht

Microsoft hat einen Benchmark gebaut, der genau das testet: Können VLMs (Vision-Language-Models) Aktionen planen UND gleichzeitig räumlich verorten — über mehrere Schritte hinweg, in realen Roboter-Szenarien?

Aufgaben:** Lange, mehrstufige Manipulationsaufgaben aus echten Roboter-Setups
Test:** Nicht nur WAS der Roboter tun soll, sondern WO genau
Ergebnis:** Die meisten Modelle scheitern, sobald die Ketten länger werden

Das Framework: V2GP

Dazu liefert Microsoft ein Training-Framework namens Video-to-Spatially Grounded Planning (V2GP). Die Idee:

Roboter-Demo-Videos werden automatisch in räumlich verankerte Trainingsdaten umgewandelt
Modelle lernen daraus, Planung und räumliche Verortung zu kombinieren
Kein manuelles Labeling nötig — das System generiert die Daten selbst aus Videos

💡 Was das bedeutet

Wer glaubt, man müsse einem Roboter nur ein gutes Sprachmodell geben und dann räumt der die Küche auf, bekommt hier die kalte Dusche. Zwischen "Text verstehen" und "im Raum handeln" klafft eine riesige Lücke. Microsofts Benchmark macht diese Lücke erstmals messbar.

✅ Pro

Systematischer Test für ein echtes Kernproblem der Robotik
V2GP-Framework erzeugt Trainingsdaten ohne teures manuelles Labeling
Open-Research-Ansatz, den andere Teams nutzen können

❌ Con

Reiner Benchmark — kein Produkt, kein Roboter, den man kaufen kann
Ergebnisse zeigen vor allem, wie schlecht der Stand ist
Vom Labor zur Küche ist es noch ein weiter Weg

🤖 NERDMAN-URTEIL

Weniger sexy als ein Demo-Video, aber genau die Art von ehrlicher Grundlagenarbeit, die Robotik tatsächlich voranbringt — statt noch ein "Seht mal, unser Roboter faltet ein Handtuch"-Clip auf X.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: Microsoft Research

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

experimental microsoft testet, ki-roboter wirklich planen können

← ZURÜCK ZU NERDMAN