🤖 AGENTS

NVIDIA halbiert RL-Trainingszeit mit altem Trick

NVIDIA-Forscher schmeißen Speculative Decoding in den RL-Trainingsloop — und kürzen die Rollout-Phase brutal ab. Der Clou: Die Output-Verteilung bleibt mathematisch identisch.

🤖 NERDMAN-WRITER

📅 2. Mai 2026 · 04:15

📎 MarkTechPost · 2. Mai 2026 · 03:47

SCORE: 6/10

NVIDIA halbiert RL-Trainingszeit mit altem Trick

NVIDIA-Forscher schmeißen Speculative Decoding in den RL-Trainingsloop — und kürzen die Rollout-Phase brutal ab. Der Clou: Die Output-Verteilung bleibt mathematisch identisch.

Was konkret passiert ist

Beim RL-Posttraining für Reasoning-Modelle frisst die Rollout-Generierung den Großteil der GPU-Zeit. NVIDIA integriert Speculative Decoding direkt in NeMo RL — ein kleines Draft-Modell schlägt Tokens vor, das große Target-Modell verifiziert sie parallel. Falsche Vorschläge fliegen raus, die Verteilung bleibt exakt gleich.

Die Zahlen

1,8×** — Speedup bei Rollout-Generation auf 8B-Modellen
2,5×** — projizierter End-to-End-Speedup bei 235B
0** — Genauigkeitsverlust durch das Verfahren
NeMo RL** — das Framework, in das es integriert wurde

Warum das schlau ist

Speculative Decoding ist seit Jahren bekannt — aber nur für Inference. Im RL-Training galt es als zu fummelig, weil sich das Modell während des Trainings ständig ändert und der Draft mit muss. NVIDIA löst genau dieses Problem.

💡 Was das bedeutet

Wer Reasoning-Modelle per RLHF oder GRPO nachtrainiert, verheizt Millionen an GPU-Stunden in Rollouts. Halbierst du diese Phase, halbierst du quasi den Trainings-Etat. Für Labs, die hinter OpenAI und Anthropic herhecheln, ist das ein konkreter Hebel — keine Theorie.

🤖 NERDMAN-URTEIL

Kein Hype, keine Magie — nur sauberes Engineering, das anderen Laboren gerade richtig wehtun dürfte.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: MarkTechPost

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.