Suche: Speedup

EXPERIMENTAL

LLMs machen Datenbank-Queries 5x schneller

Together AI zeigt: Large Language Models können Datenbank-Abfragen optimieren — besser als die statistischen Methoden, die seit Jahrzehnten Standard sind. Bis zu 4,78x Speedup. ...

Together AI Blog · 2026-04-03 19:20:02.125088+00:00 · Score 5/10

EXPERIMENTAL

Aurora macht Speculative Decoding 25% schneller

Together AI hat ein Problem gelöst, das die meisten ignorieren: Speculative Decoding wird einmal eingestellt und dann nie wieder angefasst. Aurora ändert das. Das ...

Together AI Blog · 2026-03-31 22:19:28.653306+00:00 · Score 6/10

TOOLS

Sakana AI and NVIDIA Introduce TwELL with CUDA Kernels for 20.5% Inference and 21.9% Training Speedup in LLMs

NVIDIA und Sakana AI stellen Twell vor: CUDA-Kernel für 20,5 % schnelleres Inferenz und 21,9 % schnelleres Training von LLMs

MarkTechPost · 2026-05-11 10:26:02.209858+00:00 · Score 7/10

AGENTS

NVIDIA halbiert RL-Trainingszeit mit altem Trick

NVIDIA-Forscher schmeißen Speculative Decoding in den RL-Trainingsloop — und kürzen die Rollout-Phase brutal ab. Der Clou: Die Output-Verteilung bleibt mathematisch identisch.

MarkTechPost · 2026-05-02 04:15:35.883666+00:00 · Score 6/10

TOOLS

Moonshot kippt Kimi-Kernel auf GitHub

Moonshot AI hat FlashKDA veröffentlicht — eine CUTLASS-Kernel-Implementierung für Kimi Delta Attention. Open Source, MIT-Lizenz, sofort einsetzbar.

MarkTechPost · 2026-05-01 04:15:18.218360+00:00 · Score 6/10

TOOLS

Together AI macht LLM-Inference 4x schneller

Together AI hat ein neues System vorgestellt, das LLM-Inference während der Nutzung beschleunigt. Der Name: ATLAS — AdapTive-LeArning Speculator System.

Together AI Blog · 2026-03-23 18:18:30.414090+00:00 · Score 7/10

TOOLS

Google macht Gemma 4 dreimal schneller

Google schraubt an Gemma 4. Ein neuer Multi-Token-Prediction-Drafter soll die Textgenerierung der offenen Modellfamilie verdreifachen.

The Decoder · 2026-05-06 19:19:07.998628+00:00 · Score 6/10

TOOLS

Google verdreifacht Gemma-4-Speed mit MTP

Google hat Multi-Token Prediction (MTP) Drafters für Gemma 4 veröffentlicht. Das Ding macht Inference dreimal schneller — ohne Qualitätsverlust.

MarkTechPost · 2026-05-06 10:20:20.898843+00:00 · Score 6/10

EXPERIMENTAL

DAS macht RL-Training 50% schneller

Together AI hat ein Problem gelöst, von dem die meisten nicht mal wissen, dass es existiert: den Rollout-Flaschenhals beim Reinforcement Learning. Ihre Lösung heißt ...

Together AI Blog · 2026-04-24 19:20:05.113518+00:00 · Score 5/10

EXPERIMENTAL

Neuro-symbolisches Modell erklärt Betrug 33× schneller

SHAP braucht 30 Millisekunden, um eine Betrugs-Vorhersage zu erklären. Ein neuro-symbolisches Modell schafft das in 0,9 ms — und liefert die Erklärung gleich mit, ohne ...

Towards Data Science · 2026-03-31 07:22:59.548195+00:00 · Score 3/10

EXPERIMENTAL

AutoJudge macht LLM-Inferenz doppelt so schnell

Together AI hat ein neues Tool vorgestellt, das Large Language Models deutlich beschleunigt — ohne sie dümmer zu machen. AutoJudge filtert, welche Token-Fehler wirklich zählen und ...

Together AI Blog · 2026-03-23 21:19:18.974846+00:00 · Score 5/10

SUCHE

LLMs machen Datenbank-Queries 5x schneller

Aurora macht Speculative Decoding 25% schneller

Sakana AI and NVIDIA Introduce TwELL with CUDA Kernels for 20.5% Inference and 21.9% Training Speedup in LLMs

NVIDIA halbiert RL-Trainingszeit mit altem Trick

Moonshot kippt Kimi-Kernel auf GitHub

Together AI macht LLM-Inference 4x schneller

Google macht Gemma 4 dreimal schneller

Google verdreifacht Gemma-4-Speed mit MTP

DAS macht RL-Training 50% schneller

Neuro-symbolisches Modell erklärt Betrug 33× schneller

AutoJudge macht LLM-Inferenz doppelt so schnell