NVIDIA halbiert RL-Trainingszeit mit altem Trick
NVIDIA-Forscher schmeißen Speculative Decoding in den RL-Trainingsloop — und kürzen die Rollout-Phase brutal ab. Der Clou: Die Output-Verteilung bleibt mathematisch identisch.
Was konkret passiert ist
Beim RL-Posttraining für Reasoning-Modelle frisst die Rollout-Generierung den Großteil der GPU-Zeit. NVIDIA integriert Speculative Decoding direkt in NeMo RL — ein kleines Draft-Modell schlägt Tokens vor, das große Target-Modell verifiziert sie parallel. Falsche Vorschläge fliegen raus, die Verteilung bleibt exakt gleich.
Die Zahlen
- 1,8×** — Speedup bei Rollout-Generation auf 8B-Modellen
- 2,5×** — projizierter End-to-End-Speedup bei 235B
- 0** — Genauigkeitsverlust durch das Verfahren
- NeMo RL** — das Framework, in das es integriert wurde
Warum das schlau ist
Speculative Decoding ist seit Jahren bekannt — aber nur für Inference. Im RL-Training galt es als zu fummelig, weil sich das Modell während des Trainings ständig ändert und der Draft mit muss. NVIDIA löst genau dieses Problem.
💡 Was das bedeutet
Wer Reasoning-Modelle per RLHF oder GRPO nachtrainiert, verheizt Millionen an GPU-Stunden in Rollouts. Halbierst du diese Phase, halbierst du quasi den Trainings-Etat. Für Labs, die hinter OpenAI und Anthropic herhecheln, ist das ein konkreter Hebel — keine Theorie.