KI-Training wird 2,5-mal schneller
Forscher knacken das Tempo-Problem beim Trainieren großer Sprachmodelle. Die Methode ist simpel – die Wirkung enorm.
Was konkret passiert ist
Das Team von Nous Research hat "Token Superposition Training" (TST) veröffentlicht. Die Methode beschleunigt das Pre-Training von LLMs massiv, ohne die Architektur anzufassen. Sie funktioniert bei Modellen von 270 Millionen bis zu 10 Milliarden Parametern.
- Beschleunigung:** Bis zu 2,5-fache Geschwindigkeit
- Modellgröße:** Getestet von 270M bis 10B+ Parametern
- Vorteil:** Gleiche Rechenleistung (FLOPs), besseres Ergebnis
So funktioniert der Trick
Statt einen Token nach dem anderen zu verarbeiten, packt TST mehrere Token in einen einzigen Trainingsschritt. Das System lernt quasi in Overhead-Ansicht. Es berührt weder Optimierer noch Tokenizer.
This is a substantial reduction in wall-clock time without changing the fundamentals.— Nous Research Team
✅ Pro
- Massive Zeit- und Kosteneinsparung
- Keine Änderung an Architektur nötig
- Skaliert über verschiedene Modellgrößen
❌ Con
- Noch nicht bei extrem großen Modellen (>100B) validiert
- Muss sich in der Praxis bewähren
Was das bedeutet
Für AI-Labore heißt das: Sie können Modelle schneller und günstiger entwickeln. Für die Konkurrenz wird es enger. Jeder, der diesen Trick kopiert, holt auf. Die Zeit bis zum nächsten GPT-5 könnte schrumpfen.