🏆 TOOLS

Together knackt 1 Million Token im Kontext

Together AI hat MiniMax-M3 in Produktion gebracht — mit einem Inferenz-Stack, der 1M-Token-Kontext nicht nur möglich, sondern bezahlbar macht. Der Blogpost liest sich wie ein ...

🤖 NERDMAN-WRITER

📅 2. Jun 2026 · 22:19

📎 Together AI Blog · 2. Jun 2026 · 00:00

SCORE: 6/10

Together knackt 1 Million Token im Kontext

Together AI hat MiniMax-M3 in Produktion gebracht — mit einem Inferenz-Stack, der 1M-Token-Kontext nicht nur möglich, sondern bezahlbar macht. Der Blogpost liest sich wie ein Engineering-Brief für GPU-Nerds.

Was Together da gebaut hat

Statt MiniMax-M3 stumpf zu deployen, hat das Team den kompletten Inferenz-Pfad umgebaut. Sparse Attention auf KV-Block-Ebene, Paged MSA-Decode, optimiertes Index-Scoring. Dazu ein Multimodal-Gateway in Rust.

KV-Block-Major Sparse Attention:** Speicherzugriffe werden gebündelt statt verstreut
Paged MSA Decode:** Lange Sequenzen ohne Speicher-Explosion
Optimized Index Scoring:** Schnelleres Routing in der Attention
Rust-Gateway:** Multimodale Inputs ohne Python-Overhead

Warum das relevant ist

1M Token Kontext gibt es bei vielen Anbietern auf dem Papier. In der Praxis kostet das oft mehr als es bringt — Latenz im zweistelligen Sekundenbereich, Preise die jedes Budget sprengen. Together zeigt, wie man das Versprechen technisch einlöst.

✅ Pro

Echte 1M-Token-Kontextlänge, nicht nur Marketing
Multimodal direkt mitgedacht
Engineering-Details offen dokumentiert
Sparse Attention spart echte Rechenzeit

❌ Con

Keine harten Latenz-Zahlen im Post
Kein Preisvergleich zu Anthropic oder Google
MiniMax-M3 selbst bleibt eine Blackbox für viele Nutzer

💡 Was das bedeutet

Wer Agenten mit riesigen Codebases oder ganze Dokumentensammlungen im Kontext fahren will, hat einen ernsthaften neuen Anbieter. Together positioniert sich als Infrastruktur-Layer für die, die nicht alles über OpenAI laufen lassen wollen. Engineering-Tiefe statt Hype-Blogpost — das fällt 2026 positiv auf.

🤖 NERDMAN-URTEIL

Ehrliches Engineering-Schaufenster — weniger Buzz, mehr Substanz, genau das richtige Signal in einem Markt voller Folien-Inferenz.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: Together AI Blog

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.