OpenAI macht dünnbesetzte Netze brutal schnell
OpenAI veröffentlicht GPU-Kernel, die eine fast vergessene Netzwerk-Architektur wiederbeleben: Block-Sparse Networks. Die Rechenzeit? Teilweise um Größenordnungen schneller als Nvidias Standard-Bibliotheken.
Was das technisch bedeutet
Normale neuronale Netze rechnen mit dichten Matrizen — jedes Gewicht zählt. Block-Sparse heißt: Große Teile der Gewichte sind Null, absichtlich. Das spart Rechenpower, aber bisherige Software konnte das kaum ausnutzen.
OpenAIs neue Kernel ändern das. Sie schlagen cuBLAS und cuSPARSE — die beiden Standard-Tools für GPU-Berechnungen — je nach Sparsity-Grad um ein Vielfaches.
Was dabei rauskam
- Textanalyse:** State-of-the-Art bei Sentiment Analysis
- Generative Modelle:** Neue Bestwerte bei Text- und Bildgenerierung
- Verfügbarkeit:** Open Source, sofort nutzbar
Warum das unter dem Radar läuft
Kein neues Modell. Kein Chatbot. Kein Produktlaunch. Deshalb redet kaum jemand darüber. Aber genau solche Infrastruktur-Arbeiten entscheiden, wer in zwei Jahren die effizientesten Modelle trainiert.
Wer dünnbesetzte Netze schnell rechnen kann, braucht weniger GPUs für das gleiche Ergebnis. Oder bekommt bessere Ergebnisse mit dem gleichen Budget.