1 Billion Parameter auf 96 GB RAM
Ein Modell mit einer Billion Parametern auf einem Rechner mit 96 GB RAM. Kein Rechenzentrum, kein Cloud-Abo. Einfach SSD und Geduld.
Wie das funktioniert
Mixture-of-Experts-Modelle aktivieren nicht alle Parameter gleichzeitig. Kimi K2.5 hat 1 Billion Parameter, nutzt aber pro Token nur 32 Milliarden. Der Trick: Die restlichen Gewichte liegen auf der SSD und werden bei Bedarf nachgeladen. Token für Token. Nennt sich Streaming Experts.
📅 Timeline
- Vor 5 Tagen:** Dan Woods lässt Qwen3.5-397B-A17B mit 48 GB RAM laufen
- Heute:** User @seikixtc packt Kimi K2.5 — 1 Billion Parameter — in 96 GB RAM
Das Tempo dieser Entwicklung ist absurd. Innerhalb einer Woche hat sich die Modellgröße fast verdreifacht.
Zahlenbox
- 1.000.000.000.000** — Parameter von Kimi K2.5
- 32 Mrd.** — aktive Parameter pro Token
- 96 GB** — benötigter RAM
- 397B → 1T** — Sprung in nur 5 Tagen
✅ Pro
- Riesige Modelle auf Consumer-Hardware
- Keine Cloud-Kosten, keine API-Limits
- Funktioniert mit jeder schnellen SSD
❌ Con
- Langsam — jedes Token wartet auf die SSD
- Nur sinnvoll für Mixture-of-Experts-Architekturen
- Noch kein Tool für Normalsterbliche
💡 Was das bedeutet
Die GPU-Knappheit war das stärkste Argument für Cloud-Abhängigkeit. Streaming Experts untergräbt dieses Argument massiv. Wenn Bastler Billion-Parameter-Modelle lokal laufen lassen, verschiebt sich die Machtbalance weg von den großen Anbietern.