Forscher haben eine neue Methode gefunden, den KV-Cache von Transformern zu schrumpfen — und zwar über das bisherige theoretische Limit hinaus.
Google Research hat einen Kompressionsalgorithmus vorgestellt, der den Speicherhunger großer Sprachmodelle drastisch reduziert. Der Name: TurboQuant.
Apple ML Research hat ein neues Verfahren vorgestellt: Stochastic KV Routing. Ziel ist es, den Speicherhunger von Transformer-Modellen während der Textgenerierung zu zähmen.
Die teure Erinnerung großer Sprachmodelle frisst Unmengen an RAM. Jetzt haben Forscher einen Algorithmus entwickelt, der diesen Speicher fast ohne Qualitätsverlust um 75% ...
Forscher haben einem Latent-Reasoning-Modell ins Gehirn geschaut. Mit PCA und Logit Lens zeigt sich: Die erste Hauptkomponente der Hidden States korreliert stark mit dem Ende der ...