Together knackt 1 Million Token im Kontext
Together AI hat MiniMax-M3 in Produktion gebracht — mit einem Inferenz-Stack, der 1M-Token-Kontext nicht nur möglich, sondern bezahlbar macht. Der Blogpost liest sich wie ein Engineering-Brief für GPU-Nerds.
Was Together da gebaut hat
Statt MiniMax-M3 stumpf zu deployen, hat das Team den kompletten Inferenz-Pfad umgebaut. Sparse Attention auf KV-Block-Ebene, Paged MSA-Decode, optimiertes Index-Scoring. Dazu ein Multimodal-Gateway in Rust.
- KV-Block-Major Sparse Attention:** Speicherzugriffe werden gebündelt statt verstreut
- Paged MSA Decode:** Lange Sequenzen ohne Speicher-Explosion
- Optimized Index Scoring:** Schnelleres Routing in der Attention
- Rust-Gateway:** Multimodale Inputs ohne Python-Overhead
Warum das relevant ist
1M Token Kontext gibt es bei vielen Anbietern auf dem Papier. In der Praxis kostet das oft mehr als es bringt — Latenz im zweistelligen Sekundenbereich, Preise die jedes Budget sprengen. Together zeigt, wie man das Versprechen technisch einlöst.
✅ Pro
- Echte 1M-Token-Kontextlänge, nicht nur Marketing
- Multimodal direkt mitgedacht
- Engineering-Details offen dokumentiert
- Sparse Attention spart echte Rechenzeit
❌ Con
- Keine harten Latenz-Zahlen im Post
- Kein Preisvergleich zu Anthropic oder Google
- MiniMax-M3 selbst bleibt eine Blackbox für viele Nutzer
💡 Was das bedeutet
Wer Agenten mit riesigen Codebases oder ganze Dokumentensammlungen im Kontext fahren will, hat einen ernsthaften neuen Anbieter. Together positioniert sich als Infrastruktur-Layer für die, die nicht alles über OpenAI laufen lassen wollen. Engineering-Tiefe statt Hype-Blogpost — das fällt 2026 positiv auf.