Alibabas neues Mini-Modell schlägt die Großen
Nur 3 Milliarden aktive Parameter — und trotzdem auf Augenhöhe mit Modellen, die zehnmal so groß sind. Das Qwen-Team hat Qwen3.6-35B-A3B veröffentlicht, ein Open-Weight Vision-Language-Modell mit Sparse Mixture-of-Experts-Architektur.
Was steckt drin
Das Modell hat 35 Milliarden Parameter insgesamt, aber der Trick ist: Bei jeder Anfrage werden nur 3 Milliarden davon aktiviert. Der Rest schläft. Das spart Rechenleistung, RAM und Stromkosten — ohne dass die Qualität einbricht.
Zahlenbox
- 35 Mrd.** — Gesamtparameter
- 3 Mrd.** — aktive Parameter pro Inference
- ~10×** — kleiner als vergleichbar starke Dense-Modelle
- 1. Modell** — der neuen Qwen3.6-Generation
Sparse MoE — kurz erklärt
Mixture-of-Experts heißt: Das Modell besteht aus vielen spezialisierten Sub-Netzwerken. Pro Anfrage wird nur eine Handvoll Experten aktiviert. Statt brute-force alle Parameter durchzujagen, wählt ein Router die passenden Experten aus. Ergebnis: Großes Wissen, kleiner Footprint.
✅ Pro
- Open-Weight — jeder kann es nutzen und anpassen
- Läuft auf deutlich günstigerer Hardware als Dense-Konkurrenz
- Vision UND Coding in einem Modell
- Agentic Coding: kann eigenständig mehrstufige Aufgaben lösen
❌ Con
- Sparse MoE ist bei der Inferenz-Infrastruktur anspruchsvoller als Standard-Modelle
- Erste Benchmarks kommen vom Hersteller selbst — unabhängige Tests fehlen noch
- Kein direkter Lab-Blog-Post, sondern Drittquelle
💡 Was das bedeutet
Für Entwickler, die lokale oder selbst gehostete Modelle brauchen, ist das ein echter Hebel. Ein Modell, das auf Consumer-Hardware läuft und trotzdem agentic coden kann, senkt die Einstiegshürde massiv. Alibaba setzt damit ein klares Signal: Effizienz schlägt Größe.