Nvidia spaltet Inference mit neuem Rubin-Chip
Nvidia hat den Rubin CPX vorgestellt — einen Spezialchip, der nur eine Aufgabe hat: die Prefill-Phase bei Inference so schnell wie möglich abfeuern.
Ein Chip, ein Job
Der Rubin CPX setzt alles auf Compute-FLOPS und opfert dafür Memory Bandwidth. Das klingt nach Kompromiss, ist aber Kalkül. Denn Inference besteht aus zwei grundverschiedenen Phasen: Prefill und Decode.
- Fokus:** Prefill-Phase (der rechenintensive Teil von Inference)
- Design:** Single-Die, maximale FLOPS pro Watt
- Strategie:** Disaggregated Serving — getrennte Hardware für getrennte Aufgaben
Warum Das Wichtig Ist
Bisher mussten GPUs beides können: Prefill und Decode. Das ist, als würde ein Sprinter gleichzeitig Marathon laufen. Mit spezialisierten Chips für jede Phase wird Inference endlich so effizient, wie es theoretisch sein könnte.
SemiAnalysis stuft den Rubin CPX als den wichtigsten Nvidia-Launch seit dem GB200 NVL72 Rack im März 2024 ein. Wer sich an den Hype um das Oberon-Rack erinnert: Dieselbe Liga.
Was Das Für Die Branche Heißt
Disaggregated Serving war bisher ein nettes Konzept auf Whiteboards. Ohne spezialisierte Hardware blieb es genau das — ein Konzept. Der Rubin CPX liefert jetzt die Grundlage, damit Rechenzentren Prefill und Decode auf unterschiedliche Chips verteilen können.
Für Cloud-Provider heißt das: niedrigere Kosten pro Token. Für Nvidia heißt das: noch mehr Chips pro Kunde.