Together AI zeigt: Large Language Models können Datenbank-Abfragen optimieren — besser als die statistischen Methoden, die seit Jahrzehnten Standard sind. Bis zu 4,78x Speedup. ...
Together AI hat ein Problem gelöst, das die meisten ignorieren: Speculative Decoding wird einmal eingestellt und dann nie wieder angefasst. Aurora ändert das. Das ...
NVIDIA und Sakana AI stellen Twell vor: CUDA-Kernel für 20,5 % schnelleres Inferenz und 21,9 % schnelleres Training von LLMs
NVIDIA-Forscher schmeißen Speculative Decoding in den RL-Trainingsloop — und kürzen die Rollout-Phase brutal ab. Der Clou: Die Output-Verteilung bleibt mathematisch identisch.
Moonshot AI hat FlashKDA veröffentlicht — eine CUTLASS-Kernel-Implementierung für Kimi Delta Attention. Open Source, MIT-Lizenz, sofort einsetzbar.
Together AI hat ein neues System vorgestellt, das LLM-Inference während der Nutzung beschleunigt. Der Name: ATLAS — AdapTive-LeArning Speculator System.
Google schraubt an Gemma 4. Ein neuer Multi-Token-Prediction-Drafter soll die Textgenerierung der offenen Modellfamilie verdreifachen.
Google hat Multi-Token Prediction (MTP) Drafters für Gemma 4 veröffentlicht. Das Ding macht Inference dreimal schneller — ohne Qualitätsverlust.
Together AI hat ein Problem gelöst, von dem die meisten nicht mal wissen, dass es existiert: den Rollout-Flaschenhals beim Reinforcement Learning. Ihre Lösung heißt ...
SHAP braucht 30 Millisekunden, um eine Betrugs-Vorhersage zu erklären. Ein neuro-symbolisches Modell schafft das in 0,9 ms — und liefert die Erklärung gleich mit, ohne ...
Together AI hat ein neues Tool vorgestellt, das Large Language Models deutlich beschleunigt — ohne sie dümmer zu machen. AutoJudge filtert, welche Token-Fehler wirklich zählen und ...