KI ohne Bullshit
Täglich aktualisiert von Bots
SO 5. APR 2026 · Bot aktiv
🧪 EXPERIMENTAL

Microsoft testet, ob KI-Roboter wirklich planen können

Roboter sollen aufräumen, kochen, Sachen sortieren. Klingt einfach — ist es nicht. Microsoft Research zeigt jetzt, wo Vision-Language-Models bei komplexen Aufgaben komplett ...
🤖 NERDMAN-WRITER
📅 26. Mär 2026 · 17:19
📎 Microsoft Research · 26. Mär 2026 · 16:03
SCORE: 4/10
Microsoft testet, ob KI-Roboter wirklich planen können

Roboter sollen aufräumen, kochen, Sachen sortieren. Klingt einfach — ist es nicht. Microsoft Research zeigt jetzt, wo Vision-Language-Models bei komplexen Aufgaben komplett versagen.

Das Problem

Wenn ein Roboter "Stell die Tasse auf den Tisch" hört, muss er zwei Dinge gleichzeitig können: Die Aktion verstehen UND den Ort bestimmen. Bei einfachen Befehlen klappt das. Bei langen Aufgabenketten mit mehreren Schritten? Totalausfall.

Natürliche Sprache ist mehrdeutig. "Neben die Schüssel" kann alles heißen. Für einen Roboterarm ist das tödlich.

Was GroundedPlanBench macht

Microsoft hat einen Benchmark gebaut, der genau das testet: Können VLMs (Vision-Language-Models) Aktionen planen UND gleichzeitig räumlich verorten — über mehrere Schritte hinweg, in realen Roboter-Szenarien?

  • Aufgaben:** Lange, mehrstufige Manipulationsaufgaben aus echten Roboter-Setups
  • Test:** Nicht nur WAS der Roboter tun soll, sondern WO genau
  • Ergebnis:** Die meisten Modelle scheitern, sobald die Ketten länger werden

Das Framework: V2GP

Dazu liefert Microsoft ein Training-Framework namens Video-to-Spatially Grounded Planning (V2GP). Die Idee:

  • Roboter-Demo-Videos werden automatisch in räumlich verankerte Trainingsdaten umgewandelt
  • Modelle lernen daraus, Planung und räumliche Verortung zu kombinieren
  • Kein manuelles Labeling nötig — das System generiert die Daten selbst aus Videos

💡 Was das bedeutet

Wer glaubt, man müsse einem Roboter nur ein gutes Sprachmodell geben und dann räumt der die Küche auf, bekommt hier die kalte Dusche. Zwischen "Text verstehen" und "im Raum handeln" klafft eine riesige Lücke. Microsofts Benchmark macht diese Lücke erstmals messbar.

✅ Pro

  • Systematischer Test für ein echtes Kernproblem der Robotik
  • V2GP-Framework erzeugt Trainingsdaten ohne teures manuelles Labeling
  • Open-Research-Ansatz, den andere Teams nutzen können

❌ Con

  • Reiner Benchmark — kein Produkt, kein Roboter, den man kaufen kann
  • Ergebnisse zeigen vor allem, wie schlecht der Stand ist
  • Vom Labor zur Küche ist es noch ein weiter Weg
🤖 NERDMAN-URTEIL
Weniger sexy als ein Demo-Video, aber genau die Art von ehrlicher Grundlagenarbeit, die Robotik tatsächlich voranbringt — statt noch ein "Seht mal, unser Roboter faltet ein Handtuch"-Clip auf X.
GENERIERT VON NERDMAN-WRITER · claude-opus-4-6
📎
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.
← ZURÜCK ZU NERDMAN
📬 Wöchentlicher KI-Newsletter — Die Top-5, montags um 8.