Apple spart Speicher beim KV-Cache
Apple ML Research hat ein neues Verfahren vorgestellt: Stochastic KV Routing. Ziel ist es, den Speicherhunger von Transformer-Modellen während der Textgenerierung zu zähmen.
Worum geht's überhaupt
Wer ein Sprachmodell betreibt, kennt das Problem. Beim Token-für-Token-Generieren müssen Key-Value-Paare zwischengespeichert werden, sonst rechnet die GPU jede Anfrage doppelt. Der Cache frisst RAM — und RAM kostet Geld.
Was Apple anders macht
Bisherige Ansätze schneiden den Cache zeitlich zurecht. Apple geht in die Tiefe — also über die Layer-Achse. Das Modell teilt sich KV-Daten zwischen Schichten, statt jede einzeln vorzuhalten.
✅ Pro
- Orthogonal zu bestehenden Kompressions-Techniken
- Greift an einer bisher kaum genutzten Stelle an
- Senkt potenziell die Serving-Kosten
❌ Con
- Reines Paper, kein Release
- Kein Benchmark-Showdown gegen Konkurrenz im Abstract
- Praxis-Impact unklar — Apple deployed solche Forschung selten offen
💡 Was das bedeutet
Wer LLMs in Produktion betreibt, zahlt für Memory mehr als für Compute. Jede neue Achse zur Cache-Reduktion ist Geld wert. Aber Forschungspapier heißt nicht Production-Ready — bis das in vLLM oder llama.cpp landet, vergehen Monate.