Forscher haben eine neue Methode gefunden, den KV-Cache von Transformern zu schrumpfen — und zwar über das bisherige theoretische Limit hinaus.
NVlabs hat LongLive 2.0 auf GitHub geworfen — eine Infrastruktur für lange KI-Videos, die mit NVFP4-Präzision und Parallelisierung Tempo macht.