Microsoft lehrt KI-Videos endlich Geometrie
Microsoft Research und die Zhejiang University haben World-R1 vorgestellt — ein Framework, das Video-Modellen wie Wan 2.1 beibringt, dass eine Wand auch eine Wand bleibt, wenn die Kamera daran vorbeifährt.
Das Problem mit heutigen Video-Modellen
Aktuelle Video-Foundation-Models malen schöne Einzelbilder. Aber sie vergessen sie sofort wieder. Fährt die Kamera durch einen Korridor, verbiegen sich Wände, Objekte morphen, Details lösen sich auf.
Der Grund: Diese Modelle lernen 2D-Pixelkorrelationen — sie simulieren keine echte 3D-Szene.
Wie World-R1 das löst
- Flow-GRPO:** Reinforcement Learning für Diffusion-Flow-Modelle
- 3D-Aware Rewards:** Belohnt geometrische Konsistenz über Frames hinweg
- Keine Architektur-Änderung:** Wird auf bestehendes Wan 2.1 draufgesetzt
- Basis:** Gemeinsame Forschung Microsoft Research × Zhejiang University
✅ Pro
- Bestehende Modelle bleiben kompatibel
- Geometrie-Bewusstsein ohne 3D-Annotation im Training
- Direktes Reward-Signal statt aufwendiger Datensätze
❌ Con
- Nur ein Forschungs-Framework, kein Produkt
- Kein Code-Release oder Demo öffentlich angekündigt
- Greift bei radikalen Kamerabewegungen weiter an seine Grenzen
💡 Was das bedeutet
Wer KI-Video für Spiele, AR oder Simulation einsetzen will, scheitert bisher an einem Punkt: die Welt ist nicht stabil. World-R1 zeigt einen Weg, das mit RL nachträglich zu reparieren — ohne neue Milliarden-Modelle. Das ist genau die Art Fortschritt, die Sora & Co. unter Druck setzt.