Together AI macht Claude Opus 76% billiger
Together AI veröffentlicht harte Benchmark-Zahlen für Coding-Agenten. Die Botschaft: Wer Agents in Produktion fährt, zahlt bei Anthropic drauf.
Die Zahlen, die wehtun
- +31%** — mehr Tokens pro Sekunde als TensorRT-LLM
- 2×** — bessere Time-to-First-Token unter Volllast
- −76%** — Kosten gegenüber Claude Opus 4.6
- Zielgruppe:** Coding-Agenten im Dauerbetrieb
Was konkret gemessen wurde
Together AI hat seinen Inference-Stack gegen die Platzhirsche gestellt. Nicht im Labor, sondern unter realistischer Agent-Last mit langen Kontexten und parallelen Calls.
TensorRT-LLM gilt als Goldstandard für GPU-Inference. Together schlägt ihn bei TPS um fast ein Drittel. Bei TTFT — der Wartezeit bis zum ersten Token — ist der Vorsprung bei Saturation doppelt so groß.
⚖️ Together vs. Claude Opus 4.6
- Preis pro Task:** Together 76% günstiger
- Latenz unter Last:** Together hält TTFT stabil, Claude bricht ein
- Ökosystem:** Claude liefert das stärkere Modell out-of-the-box
- Setup:** Together braucht eigenes Engineering, Claude ist Plug-and-Play
💡 Was das bedeutet
Wer einen Coding-Agent für zehn Entwickler baut, merkt den Preisunterschied auf der Kreditkarte sofort. Bei hundert Entwicklern entscheidet er, ob das Produkt überlebt. Closed-Source-APIs sind bequem — bei Agent-Volumen aber ein Kostenrisiko.