EXPERIMENTAL
RateQuant quetscht KV-Cache mit Mathe-Trick
Forscher schlagen vor, den Speicher-Killer von LLMs mit Rate-Distortion-Theorie zu komprimieren. Klingt nach Nerd-Kram. Ist auch Nerd-Kram.
arXiv AI/ML/NLP
· 2026-05-11 04:19:07.850518+00:00
· Score 2/10