AutoJudge macht LLM-Inferenz doppelt so schnell
Together AI hat ein neues Tool vorgestellt, das Large Language Models deutlich beschleunigt — ohne sie dümmer zu machen. AutoJudge filtert, welche Token-Fehler wirklich zählen und welche man ignorieren kann.
So Funktioniert Der Trick
Speculative Decoding ist ein bekanntes Verfahren: Ein kleines, schnelles Modell rät Tokens voraus, das große Modell prüft sie. Problem: Jeder noch so winzige Fehler wird verworfen. AutoJudge sagt: Muss nicht sein.
Das Tool trainiert einen leichtgewichtigen Classifier per Self-Supervised Learning. Der lernt selbstständig, welche Token-Abweichungen die Ausgabequalität tatsächlich verschlechtern — und welche komplett egal sind.
Die Zahlen
- Akzeptierte Draft-Tokens:** bis zu 40 pro Zyklus
- Speedup:** 1,5× bis 2× schneller als Standard-Speculative-Decoding
- Genauigkeitsverlust:** minimal
Das klingt nach wenig, ist aber viel. Standard-Speculative-Decoding akzeptiert deutlich weniger Tokens pro Durchgang. Mehr akzeptierte Tokens heißt weniger Zyklen, weniger Zyklen heißt schnellere Antworten.
Was Fehlt
Kein Modell-Release, kein Code zum Ausprobieren. Bisher nur ein Blogpost mit Benchmark-Ergebnissen. Together AI zeigt, was möglich ist — liefert aber noch nichts zum Anfassen.