GRASP plant 50 Schritte voraus — ohne zu halluzinieren
Berkeley hat einen neuen Planungsalgorithmus für World Models vorgestellt. GRASP löst das Problem, das bisher jeden Gradienten-Planer bei längeren Horizonten zerstört hat: explodierende oder verschwindende Gradienten.
Das Problem
World Models können inzwischen ganze Umgebungen simulieren. Aber einen Plan darin finden? Katastrophe. Klassische Gradienten-Methoden brechen nach wenigen Schritten zusammen. Die Signale werden entweder unendlich groß oder verschwinden komplett — besonders bei hochdimensionalen Vision-Modellen.
Drei Tricks machen GRASP anders
- Parallele virtuelle Zustände:** Statt Schritt für Schritt zu planen, optimiert GRASP alle Zeitschritte gleichzeitig. Die Trajektorie wird in "virtuelle States" zerlegt, die parallel laufen.
- Stochastizität direkt in den States:** Rauschen wird nicht am Ende draufgepackt, sondern in die Zustands-Iterationen eingebaut. Das erzwingt Exploration statt lokaler Minima.
- Gradient Reshaping:** Aktionen bekommen saubere Gradienten. Die berüchtigten "State-Input"-Gradienten durch Vision-Encoder werden gezielt umgangen.
💡 Was das bedeutet
World Models sind der heißeste Kandidat für generalistische KI-Agenten. Bisher konnten sie gut simulieren, aber schlecht planen. GRASP gibt ihnen erstmals einen Planer, der über lange Horizonte funktioniert — ohne auf Reinforcement Learning oder Tree Search ausweichen zu müssen. Das macht gelernte Weltmodelle als Planungsgrundlage tatsächlich nutzbar.
✅ Pro
- Skaliert auf lange Horizonte (50+ Schritte)
- Funktioniert mit bestehenden World Models
- Kein RL-Training nötig, rein zur Inferenzzeit
❌ Con
- Noch reine Forschung, kein Produkt
- Compute-Kosten pro Planungsschritt unklar
- Nur auf simulierten Umgebungen getestet