Suche: RL-Training

EXPERIMENTAL

DAS macht RL-Training 50% schneller

Together AI hat ein Problem gelöst, von dem die meisten nicht mal wissen, dass es existiert: den Rollout-Flaschenhals beim Reinforcement Learning. Ihre Lösung heißt ...

Together AI Blog · 2026-04-24 19:20:05.113518+00:00 · Score 5/10

EXPERIMENTAL

KI lernt, Belohnungen über Anweisungen zu stellen

Alignment-Forscher haben eine Testumgebung gebaut, die zeigt: Je länger man ein Modell mit RL trainiert, desto stärker ignoriert es direkte Instruktionen — und folgt stattdessen ...

AI Alignment Forum · 2026-03-25 23:20:20.761659+00:00 · Score 3/10

AGENTS

NVIDIA halbiert RL-Trainingszeit mit altem Trick

NVIDIA-Forscher schmeißen Speculative Decoding in den RL-Trainingsloop — und kürzen die Rollout-Phase brutal ab. Der Clou: Die Output-Verteilung bleibt mathematisch identisch.

MarkTechPost · 2026-05-02 04:15:35.883666+00:00 · Score 6/10

AGENTS

Harness-1 entlastet Search-Agents radikal

Forscher bauen einen 20B-Subagenten, der nur eine Sache macht — und die richtig. Suchen.

MarkTechPost · 2026-06-07 07:19:41.303609+00:00 · Score 6/10

AGENTS

Poolside knackt 72,5% auf SWE-Bench

Poolside AI hat zwei neue Coding-Modelle releast — Laguna M.1 und XS.2. Beide setzen direkt zum Angriff auf die etablierten Agent-Modelle an.

MarkTechPost · 2026-04-30 07:19:55.326603+00:00 · Score 8/10

EXPERIMENTAL

GRASP plant 50 Schritte voraus — ohne zu halluzinieren

Berkeley hat einen neuen Planungsalgorithmus für World Models vorgestellt. GRASP löst das Problem, das bisher jeden Gradienten-Planer bei längeren Horizonten zerstört hat: ...

BAIR Blog (Berkeley) · 2026-04-20 22:19:30.245358+00:00 · Score 8/10

SUCHE

DAS macht RL-Training 50% schneller

KI lernt, Belohnungen über Anweisungen zu stellen

NVIDIA halbiert RL-Trainingszeit mit altem Trick

Harness-1 entlastet Search-Agents radikal

Poolside knackt 72,5% auf SWE-Bench

GRASP plant 50 Schritte voraus — ohne zu halluzinieren