SUCHE

2 Ergebnisse fuer «KV-Cache-Kompression»

Forscher haben eine neue Methode gefunden, den KV-Cache von Transformern zu schrumpfen — und zwar über das bisherige theoretische Limit hinaus.

NVlabs hat LongLive 2.0 auf GitHub geworfen — eine Infrastruktur für lange KI-Videos, die mit NVFP4-Präzision und Parallelisierung Tempo macht.

📬 Wöchentlicher KI-Newsletter — Die Top-5, montags um 8.