Roboterhand knackt Rubik's Cube ohne Anleitung
OpenAI hat einer Roboterhand beigebracht, den Zauberwürfel zu lösen. Nicht mit starren Programmen, sondern mit Reinforcement Learning — komplett im Simulator trainiert.
Wie das funktioniert
Zwei neurale Netzwerke steuern die Hand. Trainiert wurde mit demselben RL-Code wie OpenAI Five, plus einer neuen Technik: Automatic Domain Randomization (ADR). ADR variiert die Simulationsumgebung so stark, dass die Hand in der echten Welt klarkommt — obwohl sie die nie gesehen hat.
- Training:** komplett in Simulation, kein echtes Üben nötig
- Technik:** Reinforcement Learning + ADR
- Hardware:** menschenähnliche Roboterhand mit fünf Fingern
Die Giraffen-Probe
Das Beeindruckende: Die Hand löst den Würfel auch unter Störungen. Die Forscher haben sie während des Lösens mit einer Plüschgiraffe angestupst. Hat sie nicht interessiert. Weitergemacht, fertig gelöst. Das System generalisiert auf Situationen, die im Training nie vorkamen.
Was das zeigt
RL funktioniert nicht nur in Videospielen und Brettspielen. Es kann reale, physische Aufgaben lösen — mit echten Fingern, echten Reibungswerten, echter Schwerkraft.