Open-Source-Modelle schlagen jetzt die teuren Platzhirsche
GLM-5 und MiniMax M2.7 — zwei Open-Weight-Modelle, von denen die meisten noch nie gehört haben. Sie liefern bei Agent-Tasks auf dem Niveau von GPT-4o und Claude. Für einen Bruchteil der Kosten.
Was LangChain gemessen hat
LangChain hat beide Modelle durch ihre Deep-Agents-Evaluierung gejagt. Die Disziplinen: File-Operationen, Tool Use und Instruction Following — also genau das, was Agents im Alltag können müssen. Das Ergebnis ist eindeutig.
Zahlenbox
- 2 Modelle** — GLM-5 und MiniMax M2.7 bestehen die Schwelle
- 3 Kernaufgaben** — File Ops, Tool Use, Instruction Following
- Kosten:** Bruchteil der Closed-Model-Preise
- Latenz:** Deutlich niedriger als bei Frontier-Modellen
Die neue Realität
Open-Weight-Modelle waren bisher die Sparversion. Gut genug für Chatbots, zu schwach für echte Agents. Das hat sich geändert. LangChain sagt klar: Diese Modelle sind eine "viable option" — nicht irgendwann, sondern jetzt.
✅ Pro
- Keine API-Abhängigkeit von OpenAI oder Anthropic
- Selbst hostbar, volle Datenkontrolle
- Günstiger und schneller bei Agent-Workflows
❌ Con
- Noch nicht auf allen Benchmarks gleichauf
- Community und Tooling hinter den Closed-Ökosystemen
- Langzeit-Stabilität in Produktion unbewiesen
💡 Was das bedeutet
Wer Agents baut, hat ab sofort echte Alternativen zu den teuren APIs. Nicht für jedes Szenario — aber für die Kernaufgaben reicht es. Das drückt die Preise und zwingt OpenAI, Anthropic und Google, ihre Margen zu rechtfertigen.