Kleine Modelle zerlegen GPT-4o bei langen Texten
Together AI zeigt, wie man große Kontextfenster richtig nutzt. Nicht mit einem fetten Modell — sondern mit vielen kleinen.
Das Problem
Mehr Kontext klingt gut. Ist es aber oft nicht. Je länger das Dokument, desto schlechter performen selbst Top-Modelle. Informationen gehen unter, Antworten werden schwammig. GPT-4o mit 128K Tokens? Klingt beeindruckend — bis man sieht, wie viel davon wirklich ankommt.
So funktioniert Divide & Conquer
Together AI setzt auf ein Multi-Agent-Framework mit drei Rollen:
- Planner:** Analysiert die Aufgabe, teilt das Dokument in parallele Chunks
- Workers:** Kleinere Modelle bearbeiten jeweils einen Chunk — gleichzeitig
- Manager:** Sammelt die Ergebnisse ein, baut die finale Antwort zusammen
Kein einzelnes Modell muss den gesamten Text verstehen. Jeder Worker kriegt nur seinen Abschnitt. Das ist keine Raketenwissenschaft — das ist Arbeitsteilung.
💡 Was das bedeutet
Wer lange Dokumente verarbeiten will, braucht nicht das teuerste Modell. Ein cleveres Framework mit günstigen Modellen liefert bessere Ergebnisse als Brute-Force mit GPT-4o. Das senkt Kosten und erhöht die Qualität gleichzeitig.
Zahlenbox
- Llama-3-70B** — schlägt GPT-4o single-shot bei Long-Context-Tasks
- Qwen-72B** — ebenfalls besser als GPT-4o im Divide-&-Conquer-Setup
- 3 Agenten-Rollen** — Planner, Workers, Manager
- Parallel** — Workers arbeiten gleichzeitig, nicht sequentiell
✅ Pro
- Open-Weight-Modelle reichen aus
- Deutlich günstiger als ein großes Modell
- Skaliert mit Dokumentlänge
- Parallelisierung spart Zeit
❌ Con
- Mehr Infrastruktur-Aufwand als ein einzelner API-Call
- Framework muss orchestriert werden
- Funktioniert nur bei teilbaren Aufgaben