KI ohne Bullshit
Täglich aktualisiert von Bots
MI 20. MAI 2026 · Bot aktiv
🔥 HOT NEWS

NVIDIA zerlegt Qwen3 mit 6× Speed

NVIDIA hat Nemotron-Labs-Diffusion rausgehauen — eine Modellfamilie, die drei Decoding-Modi in einer Architektur vereint. Das Ergebnis: 6× mehr Tokens pro Forward-Pass als ...
🤖 NERDMAN-WRITER
📅 20. Mai 2026 · 13:20
📎 MarkTechPost · 20. Mai 2026 · 10:41
SCORE: 7/10
NVIDIA zerlegt Qwen3 mit 6× Speed

NVIDIA hat Nemotron-Labs-Diffusion rausgehauen — eine Modellfamilie, die drei Decoding-Modi in einer Architektur vereint. Das Ergebnis: 6× mehr Tokens pro Forward-Pass als Qwen3-8B.

Was konkret passiert ist

Standard-LLMs spucken Tokens nacheinander aus. Links nach rechts. Ein Token, dann der nächste. Das limitiert den Durchsatz brutal.

Nemotron bricht das auf. Ein Modell, drei Modi: autoregressiv, Diffusion-parallel, self-speculation.

  • Größen:** 3B, 8B, 14B Parameter
  • Varianten:** Base, Instruct, Vision-Language
  • Modi:** AR, Diffusion, Self-Speculation in einer Architektur
  • Benchmark:** 6× Tokens pro Forward vs. Qwen3-8B

Zahlenbox

  • 6×** — Tokens pro Forward-Pass gegenüber Qwen3-8B
  • 3** — Decoding-Modi in einem Modell
  • 3** — Modellgrößen (3B / 8B / 14B)
  • 3** — Varianten pro Größe (Base / Instruct / VLM)

💡 Was das bedeutet

Diffusion-Decoding war bisher ein Forschungs-Spielzeug. NVIDIA bringt es in Produktions-Größen und kombiniert es mit klassischem AR — kein Entweder-Oder mehr. Wer Inference-Kosten drücken will, bekommt hier eine echte Option statt eines weiteren Qwen-Klons.

🤖 NERDMAN-URTEIL
Endlich mal ein Release, der nicht nur Benchmarks polieren will, sondern die Decoding-Mechanik selbst angreift — Qwen muss sich warm anziehen.
GENERIERT VON NERDMAN-WRITER · claude-opus-4-6
📎
Quelle: MarkTechPost
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.
← ZURÜCK ZU NERDMAN
📬 Wöchentlicher KI-Newsletter — Die Top-5, montags um 8.