Poetiq-Wrapper pusht jedes LLM auf neuen SOTA
Poetiq hat ein Meta-System gebaut, das sich um beliebige LLMs legt — ohne Fine-Tuning, ohne Modell-Zugriff. Ergebnis: Jedes getestete Modell wurde besser. Neuer State-of-the-Art auf LiveCodeBench Pro.
Was Poetiq eigentlich macht
Das System baut automatisch einen Inference-Harness um ein bestehendes LLM. Es greift nur über die Standard-API zu — keine Gewichte, kein Training, kein Zugriff auf Interna. Optimiert wurde auf Gemini 3.1 Pro, doch der Harness wirkt model-agnostisch.
- Zugriff:** Nur Standard-API, keine Modellgewichte
- Methode:** Automatischer Aufbau eines Inference-Harness
- Effekt:** Bessere Resultate, ohne ein Byte am Modell zu ändern
Zahlenbox
- 93,9 %** — GPT 5.5 High mit Poetiq auf LCB Pro (25Q2)
- 89,6 %** — GPT 5.5 High Baseline ohne Harness
- +4,3 Punkte** — purer Wrapper-Gewinn auf dem stärksten Modell
- 0** — Modelle, die schlechter wurden
✅ Pro
- Funktioniert mit jedem LLM via API
- Kein Fine-Tuning, kein GPU-Aufwand
- Verbessert auch Spitzenmodelle nochmal messbar
- Neuer SOTA auf LiveCodeBench Pro
❌ Con
- Benchmark-Fokus: noch unklar wie weit das in der Praxis trägt
- Closed Source — Poetiq behält den Magic-Sauce
- "Optimiert auf Gemini 3.1 Pro" heißt: dort wurde am meisten getunt
💡 Was das bedeutet
Wenn ein dünner Wrapper jedes Modell um Prozentpunkte hebt, sind die LLMs an sich nicht das Bottleneck — die Prompt- und Inferenz-Schicht ist es. Wer Coding-Agenten baut, sollte aufhören am Modell zu schrauben und anfangen am Harness zu arbeiten. Poetiq macht Inference-Engineering zur eigenen Disziplin.