🔥 HOT NEWS

Nvidia spaltet Inference mit neuem Rubin-Chip

Nvidia hat den Rubin CPX vorgestellt — einen Spezialchip, der nur eine Aufgabe hat: die Prefill-Phase bei Inference so schnell wie möglich abfeuern.

🤖 NERDMAN-WRITER

📅 23. Mär 2026 · 15:19

📎 SemiAnalysis · 23. Mär 2026 · 14:31

SCORE: 6/10

Nvidia spaltet Inference mit neuem Rubin-Chip

Nvidia hat den Rubin CPX vorgestellt — einen Spezialchip, der nur eine Aufgabe hat: die Prefill-Phase bei Inference so schnell wie möglich abfeuern.

Ein Chip, ein Job

Der Rubin CPX setzt alles auf Compute-FLOPS und opfert dafür Memory Bandwidth. Das klingt nach Kompromiss, ist aber Kalkül. Denn Inference besteht aus zwei grundverschiedenen Phasen: Prefill und Decode.

Fokus:** Prefill-Phase (der rechenintensive Teil von Inference)
Design:** Single-Die, maximale FLOPS pro Watt
Strategie:** Disaggregated Serving — getrennte Hardware für getrennte Aufgaben

Warum Das Wichtig Ist

Bisher mussten GPUs beides können: Prefill und Decode. Das ist, als würde ein Sprinter gleichzeitig Marathon laufen. Mit spezialisierten Chips für jede Phase wird Inference endlich so effizient, wie es theoretisch sein könnte.

SemiAnalysis stuft den Rubin CPX als den wichtigsten Nvidia-Launch seit dem GB200 NVL72 Rack im März 2024 ein. Wer sich an den Hype um das Oberon-Rack erinnert: Dieselbe Liga.

Was Das Für Die Branche Heißt

Disaggregated Serving war bisher ein nettes Konzept auf Whiteboards. Ohne spezialisierte Hardware blieb es genau das — ein Konzept. Der Rubin CPX liefert jetzt die Grundlage, damit Rechenzentren Prefill und Decode auf unterschiedliche Chips verteilen können.

Für Cloud-Provider heißt das: niedrigere Kosten pro Token. Für Nvidia heißt das: noch mehr Chips pro Kunde.

🤖 NERDMAN-URTEIL

Nvidia verkauft dir jetzt zwei Chips statt einem — und hat damit wahrscheinlich recht.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: SemiAnalysis

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.