Suche: KV-Cache

EXPERIMENTAL

KV-Cache-Kompression knackt die Shannon-Grenze

Forscher haben eine neue Methode gefunden, den KV-Cache von Transformern zu schrumpfen — und zwar über das bisherige theoretische Limit hinaus.

arXiv AI/ML/NLP · 2026-04-20 07:16:55.795006+00:00 · Score 4/10

HOT

Google schrumpft KI-Speicher um das 6-Fache

Google Research hat einen Kompressionsalgorithmus vorgestellt, der den Speicherhunger großer Sprachmodelle drastisch reduziert. Der Name: TurboQuant.

Ars Technica AI · 2026-03-25 20:19:24.606545+00:00 · Score 6/10

EXPERIMENTAL

Apple spart Speicher beim KV-Cache

Apple ML Research hat ein neues Verfahren vorgestellt: Stochastic KV Routing. Ziel ist es, den Speicherhunger von Transformer-Modellen während der Textgenerierung zu zähmen.

Apple ML Research · 2026-05-06 04:20:26.309004+00:00 · Score 3/10

EXPERIMENTAL

KI-Forscher zertrümmern Speicher-Problem

Die teure Erinnerung großer Sprachmodelle frisst Unmengen an RAM. Jetzt haben Forscher einen Algorithmus entwickelt, der diesen Speicher fast ohne Qualitätsverlust um 75% ...

arXiv AI/ML/NLP · 2026-05-06 04:28:28.210526+00:00 · Score 2/10

EXPERIMENTAL

PCA enthüllt: So "denkt" ein KI-Modell heimlich

Forscher haben einem Latent-Reasoning-Modell ins Gehirn geschaut. Mit PCA und Logit Lens zeigt sich: Die erste Hauptkomponente der Hidden States korreliert stark mit dem Ende der ...

LessWrong · 2026-04-18 22:19:27.973713+00:00 · Score 3/10

SUCHE

KV-Cache-Kompression knackt die Shannon-Grenze

Google schrumpft KI-Speicher um das 6-Fache

Apple spart Speicher beim KV-Cache

KI-Forscher zertrümmern Speicher-Problem

PCA enthüllt: So "denkt" ein KI-Modell heimlich