🧪 EXPERIMENTAL
Nvidia drückt KI-Training auf 4 Bit runter
Nvidia hat eine neue Pretraining-Methode vorgestellt: KI-Modelle lernen jetzt in nur 4 Bit statt der üblichen 8. Validiert wurde das Ganze an einem 12-Milliarden-Parameter-Monster ...
Nvidia hat eine neue Pretraining-Methode vorgestellt: KI-Modelle lernen jetzt in nur 4 Bit statt der üblichen 8. Validiert wurde das Ganze an einem 12-Milliarden-Parameter-Monster mit 10 Billionen Tokens.
Was konkret passiert ist
Bisher war FP8 der Goldstandard für großes Pretraining. Alles darunter galt als zu ungenau — die Modelle drehen durch, wenn der Wertebereich zu eng wird. Nvidia hat das jetzt mit dem Format NVFP4 geknackt, das direkt von Blackwell-Tensor-Cores unterstützt wird.
Die harten Zahlen
- 4 Bit** — neue Präzision fürs Pretraining (vorher 8)
- 12 Mrd.** — Parameter im Test-Modell
- 10 Bio.** — Tokens als Trainings-Horizont
- Hybrid** — Mamba-Transformer-Architektur als Testobjekt
✅ Pro
- Halbierter Speicherbedarf gegenüber FP8
- Native Hardware-Unterstützung auf Blackwell
- An echtem Frontier-Scale validiert, nicht nur Toy-Modell
❌ Con
- Funktioniert nur sinnvoll auf Nvidias neuester Hardware
- Methode, kein fertiges Open-Weight-Modell zum Runterladen
- Quantisierungsfehler bei langen Token-Horizonten bleiben Dauerthema
💡 Was das bedeutet
Wer eigene Modelle trainiert, kann auf Blackwell-GPUs künftig doppelt so große Netze ins gleiche Memory quetschen — oder gleich schnellere Trainings fahren. Nvidia zementiert damit den Hardware-Lock-In: Die nächste Generation Pretraining läuft optimal nur auf ihrem Silizium.
🤖 NERDMAN-URTEIL
Sauberer Research-Wurf, der nebenbei den Konkurrenten zeigt, wer den Pretraining-Stack besitzt — Spoiler: nicht AMD.
Quelle: MarkTechPost
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.