Ein Reinforcement-Learning-Startup hat die größte Seed-Runde aller Zeiten eingesammelt. 1,1 Milliarden Dollar — für ein erklärtes Ziel: Superintelligenz bauen.
Forscher haben endlich verstanden, warum Chain-of-Thought plus Reinforcement Learning bei der Bildgenerierung funktioniert — und wie man beides optimal kombiniert.
NVIDIA hat ein neues Training-Framework vorgestellt, das KI-Agenten mit deutlich weniger Rechenaufwand auf Kurs bringt. PivotRL kombiniert Supervised Fine-Tuning mit Reinforcement ...
Together AI hat DeepSWE veröffentlicht — einen vollständig quelloffenen Coding-Agenten, der per Reinforcement Learning trainiert wurde. Und der mischt die Bestenlisten auf.
OpenAI ließ eine KI 45.000 Jahre Dota 2 spielen — und schlug damit menschliche Weltklasse-Teams. Das Projekt heißt OpenAI Five und ist ein Meilenstein im Reinforcement Learning.
OpenAI startet einen Wettbewerb für Reinforcement Learning. Die Aufgabe: Algorithmen sollen zeigen, dass sie aus alten Erfahrungen lernen und auf neue Situationen übertragen
Forscher haben einer KI beigebracht, Kirigami-Schnittmuster zu entwerfen. Das Ergebnis: ein Framework namens RL-Kirigami, das Papier-Metamaterialien per Reinforcement Learning ...
Together AI hat ein Problem gelöst, von dem die meisten nicht mal wissen, dass es existiert: den Rollout-Flaschenhals beim Reinforcement Learning. Ihre Lösung heißt ...
Forscher haben eine Tetris-Engine gebaut, die so schnell simuliert, dass herkömmliche Implementierungen daneben aussehen wie ein Game Boy von 1989. Das Ziel: Reinforcement ...
Forscher haben zusammengetragen, wie Reinforcement Learning bei der Bekämpfung von Infektionskrankheiten helfen kann. Klingt nach Science-Fiction, ist aber ein wachsendes ...
OpenAI hat einer Roboterhand beigebracht, den Zauberwürfel zu lösen. Nicht mit starren Programmen, sondern mit Reinforcement Learning — komplett im Simulator trainiert.
OpenAI hat einen neuen Reinforcement-Learning-Benchmark vorgestellt. Name: Gotta Learn Fast — und ja, das klingt wie ein Sonic-Meme.
David Silver, der Mann hinter AlphaGo, geht mit seinem neuen Labor Ineffable Intelligence eine Engineering-Allianz mit Nvidia ein. Ziel: Die Infrastruktur für die nächste ...
David Silver hat Google DeepMind verlassen und sofort abgeräumt. Seine neue Firma Ineffable Intelligence startet mit einer Bewertung von 5,1 Milliarden Dollar — noch bevor ...
Hugging Face zeigt ein neues Framework: Ecom-RLVE trainiert KI-Agenten für Online-Shopping — nicht mit statischen Daten, sondern in adaptiven Umgebungen, die sich anpassen und ...
Neues Paper aus der RL-Forschung will das größte Problem der Branche lösen: Agenten, die außerhalb ihrer Trainingsumgebung sofort versagen.
Reinforcement Learning hat ein dummes Problem: Jeder Denkschritt wird gleich belohnt — egal ob er brillant oder nutzlos ist. Alibabas Qwen-Team hat einen Algorithmus gebaut, der ...
Forscher haben das Klötzchen-Spiel zum Highspeed-Labor für Reinforcement Learning umgebaut. Ihr Trick: Bitboard-Repräsentation statt klassischer Spielfelder.
NVIDIA hat ein neues System vorgestellt, das KI-Agenten deutlich schneller trainieren soll. Der Name: ProRL Agent. Die Idee: Das Training von der eigentlichen Agent-Arbeit trennen.
PyTorch hat ein neues Open-Source-Framework auf GitHub gedroppt: OpenEnv. Damit sollen Entwickler isolierte Umgebungen bauen, in denen LLMs per Reinforcement Learning zu Agenten ...