Together AI hat ein neues System vorgestellt, das LLM-Inference während der Nutzung beschleunigt. Der Name: ATLAS — AdapTive-LeArning Speculator System.
Wer LLMs direkt im Browser laufen lassen will, zahlt einen versteckten Preis. Eine neue Studie zeigt: WebGPUs Sicherheits-Architektur frisst Performance bei jedem einzelnen ...
Große Sprachmodelle hängen an der kurzen Leine: Prefill und Decode laufen im selben Rechenzentrum, oft im selben Rack. Forscher von Moonshot AI und der Tsinghua-Universität sagen: ...
Ein neues Tool will das Compute-Problem von Open-Source-Modellen lösen. Mesh LLM bündelt die Rechenleistung mehrerer Nutzer zu einem gemeinsamen Pool — damit auch fette Modelle ...
Ein Tüftler hat einen kompletten Webserver auf einen Mikrocontroller gequetscht. Liefert genau eine Webseite — mehr nicht.