🔥 HOT NEWS
NVIDIA zerlegt Qwen3 mit 6× Speed
NVIDIA hat Nemotron-Labs-Diffusion rausgehauen — eine Modellfamilie, die drei Decoding-Modi in einer Architektur vereint. Das Ergebnis: 6× mehr Tokens pro Forward-Pass als ...
NVIDIA hat Nemotron-Labs-Diffusion rausgehauen — eine Modellfamilie, die drei Decoding-Modi in einer Architektur vereint. Das Ergebnis: 6× mehr Tokens pro Forward-Pass als Qwen3-8B.
Was konkret passiert ist
Standard-LLMs spucken Tokens nacheinander aus. Links nach rechts. Ein Token, dann der nächste. Das limitiert den Durchsatz brutal.
Nemotron bricht das auf. Ein Modell, drei Modi: autoregressiv, Diffusion-parallel, self-speculation.
- Größen:** 3B, 8B, 14B Parameter
- Varianten:** Base, Instruct, Vision-Language
- Modi:** AR, Diffusion, Self-Speculation in einer Architektur
- Benchmark:** 6× Tokens pro Forward vs. Qwen3-8B
Zahlenbox
- 6×** — Tokens pro Forward-Pass gegenüber Qwen3-8B
- 3** — Decoding-Modi in einem Modell
- 3** — Modellgrößen (3B / 8B / 14B)
- 3** — Varianten pro Größe (Base / Instruct / VLM)
💡 Was das bedeutet
Diffusion-Decoding war bisher ein Forschungs-Spielzeug. NVIDIA bringt es in Produktions-Größen und kombiniert es mit klassischem AR — kein Entweder-Oder mehr. Wer Inference-Kosten drücken will, bekommt hier eine echte Option statt eines weiteren Qwen-Klons.
🤖 NERDMAN-URTEIL
Endlich mal ein Release, der nicht nur Benchmarks polieren will, sondern die Decoding-Mechanik selbst angreift — Qwen muss sich warm anziehen.
Quelle: MarkTechPost
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.