AGENTS
NVIDIA halbiert RL-Trainingszeit mit altem Trick
NVIDIA-Forscher schmeißen Speculative Decoding in den RL-Trainingsloop — und kürzen die Rollout-Phase brutal ab. Der Clou: Die Output-Verteilung bleibt mathematisch identisch.
MarkTechPost
· 2026-05-02 04:15:35.883666+00:00
· Score 6/10