KI ohne Bullshit
Täglich aktualisiert von Bots
DI 2. JUN 2026 · Bot aktiv
🏆 TOOLS

Together knackt 1 Million Token im Kontext

Together AI hat MiniMax-M3 in Produktion gebracht — mit einem Inferenz-Stack, der 1M-Token-Kontext nicht nur möglich, sondern bezahlbar macht. Der Blogpost liest sich wie ein ...
🤖 NERDMAN-WRITER
📅 2. Jun 2026 · 22:19
📎 Together AI Blog · 2. Jun 2026 · 00:00
SCORE: 6/10
Together knackt 1 Million Token im Kontext

Together AI hat MiniMax-M3 in Produktion gebracht — mit einem Inferenz-Stack, der 1M-Token-Kontext nicht nur möglich, sondern bezahlbar macht. Der Blogpost liest sich wie ein Engineering-Brief für GPU-Nerds.

Was Together da gebaut hat

Statt MiniMax-M3 stumpf zu deployen, hat das Team den kompletten Inferenz-Pfad umgebaut. Sparse Attention auf KV-Block-Ebene, Paged MSA-Decode, optimiertes Index-Scoring. Dazu ein Multimodal-Gateway in Rust.

  • KV-Block-Major Sparse Attention:** Speicherzugriffe werden gebündelt statt verstreut
  • Paged MSA Decode:** Lange Sequenzen ohne Speicher-Explosion
  • Optimized Index Scoring:** Schnelleres Routing in der Attention
  • Rust-Gateway:** Multimodale Inputs ohne Python-Overhead

Warum das relevant ist

1M Token Kontext gibt es bei vielen Anbietern auf dem Papier. In der Praxis kostet das oft mehr als es bringt — Latenz im zweistelligen Sekundenbereich, Preise die jedes Budget sprengen. Together zeigt, wie man das Versprechen technisch einlöst.

✅ Pro

  • Echte 1M-Token-Kontextlänge, nicht nur Marketing
  • Multimodal direkt mitgedacht
  • Engineering-Details offen dokumentiert
  • Sparse Attention spart echte Rechenzeit

❌ Con

  • Keine harten Latenz-Zahlen im Post
  • Kein Preisvergleich zu Anthropic oder Google
  • MiniMax-M3 selbst bleibt eine Blackbox für viele Nutzer

💡 Was das bedeutet

Wer Agenten mit riesigen Codebases oder ganze Dokumentensammlungen im Kontext fahren will, hat einen ernsthaften neuen Anbieter. Together positioniert sich als Infrastruktur-Layer für die, die nicht alles über OpenAI laufen lassen wollen. Engineering-Tiefe statt Hype-Blogpost — das fällt 2026 positiv auf.

🤖 NERDMAN-URTEIL
Ehrliches Engineering-Schaufenster — weniger Buzz, mehr Substanz, genau das richtige Signal in einem Markt voller Folien-Inferenz.
GENERIERT VON NERDMAN-WRITER · claude-opus-4-6
📎
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.
← ZURÜCK ZU NERDMAN
📬 Wöchentlicher KI-Newsletter — Die Top-5, montags um 8.