Suche: Inference

EXPERIMENTAL

Together verschenkt Inference — Krypto zahlt mit

Together AI koppelt sich mit Pearl Research Labs zusammen und subventioniert KI-Inference durch Krypto-Emissionen. Ein neuer Endpoint geht live — billiger als alles andere am ...

Together AI Blog · 2026-05-15 20:40:10.939345+00:00 · Score 5/10

GELD

Rebellions holt 400 Millionen für Nvidia-Angriff

Ein südkoreanisches Chip-Startup will Nvidia beim KI-Inference-Geschäft angreifen. Rebellions hat dafür gerade 400 Millionen Dollar eingesammelt — und plant noch dieses Jahr den ...

TechCrunch AI · 2026-03-30 16:20:37.987291+00:00 · Score 7/10

TOOLS

Together AI macht LLM-Inference 4x schneller

Together AI hat ein neues System vorgestellt, das LLM-Inference während der Nutzung beschleunigt. Der Name: ATLAS — AdapTive-LeArning Speculator System.

Together AI Blog · 2026-03-23 18:18:30.414090+00:00 · Score 7/10

GELD

Megaport pumpt 594 Millionen in KI-Cloud

Australiens Netzwerk-Riese Megaport holt sich 827 Millionen australische Dollar vom Kapitalmarkt. Das Geld fließt in eine neue Inference-Cloud für KI-Workloads.

Bloomberg Technology · 2026-06-03 04:19:40.643339+00:00 · Score 6/10

GELD

Koreanischer Chip-Startup holt 400 Millionen Dollar

Rebellions aus Südkorea hat eine fette Finanzierungsrunde abgeschlossen. Das Ziel: den Inference-Markt aufmischen, der bisher fest in Nvidias Hand liegt.

AI Business · 2026-03-31 16:18:44.407247+00:00 · Score 6/10

HOT

Nvidia spaltet Inference mit neuem Rubin-Chip

Nvidia hat den Rubin CPX vorgestellt — einen Spezialchip, der nur eine Aufgabe hat: die Prefill-Phase bei Inference so schnell wie möglich abfeuern.

SemiAnalysis · 2026-03-23 15:19:49.750740+00:00 · Score 6/10

TOOLS

NVIDIA verschenkt Turbo-Tool für KI-Inference

NVIDIA stellt AITune vor — ein Open-Source-Toolkit, das automatisch das schnellste Inference-Backend für jedes PyTorch-Modell findet. Schluss mit dem manuellen Rumgefrickel.

MarkTechPost · 2026-04-10 19:20:28.998103+00:00 · Score 6/10

GELD

Gimlet Labs holt 80 Millionen für Multi-Chip-Trick

Ein Startup aus dem Inference-Bereich hat gerade eine fette Series A eingesammelt. Gimlet Labs will KI-Modelle gleichzeitig auf Chips von NVIDIA, AMD, Intel, ARM, Cerebras und ...

TechCrunch AI · 2026-03-24 00:18:41.680886+00:00 · Score 7/10

GELD

Groq jagt 650 Millionen — Nvidia zahlte 20 Mrd.

Der Chip-Startup Groq will laut Axios intern 650 Millionen Dollar einsammeln. Der Move kommt direkt nach Nvidias 20-Milliarden-Deal mit dem Konkurrenten.

TechCrunch AI · 2026-05-29 22:19:17.243415+00:00 · Score 7/10

HOT

DeepSeek V4 kostet fast nichts — und läuft auf Huawei

DeepSeek legt nach. Das neue V4-Modell soll mit den besten US-Modellen mithalten — bei einem Bruchteil der Inference-Kosten. Und es läuft auf Huawei-Chips.

The Register AI · 2026-04-24 22:19:07.551962+00:00 · Score 8/10

GELD

Cerebras will an die Börse — zweiter Anlauf

Der KI-Chip-Hersteller Cerebras wagt erneut den Gang aufs Parkett. Vor Monaten noch zurückgezogen, jetzt wieder heiß auf Investoren-Geld.

Bloomberg Technology · 2026-04-20 22:19:33.313819+00:00 · Score 6/10

TOOLS

Together AI macht DeepSeek-R1 absurd schnell

Open-Source-Reasoning zum Turbo-Preis: Together AI hat einen neuen Inference-Engine vorgestellt, der DeepSeek-R1-0528 auf NVIDIA Blackwell-GPUs auf Höchstgeschwindigkeit bringt.

Together AI Blog · 2026-03-23 15:32:58.175914+00:00 · Score 7/10

TOOLS

Google verdreifacht Gemma-4-Speed mit MTP

Google hat Multi-Token Prediction (MTP) Drafters für Gemma 4 veröffentlicht. Das Ding macht Inference dreimal schneller — ohne Qualitätsverlust.

MarkTechPost · 2026-05-06 10:20:20.898843+00:00 · Score 6/10

HOT

Google spaltet seinen Super-Chip in zwei

Google hat auf der Cloud Next in Las Vegas zwei neue Eigenentwicklungen vorgestellt: TPU 8 kommt nicht als ein Chip, sondern als Doppelpack. Einer für Training, einer für ...

The Register AI · 2026-04-22 13:19:06.019116+00:00 · Score 6/10

HOT

Arm baut erstmals eigene Chips — Meta kauft

Jahrzehntelang hat Arm nur Baupläne verkauft. Jetzt produziert der britische Chipdesigner seinen ersten eigenen Prozessor — und der erste Abnehmer steht schon fest.

The Verge AI · 2026-03-24 23:20:01.131637+00:00 · Score 6/10

EXPERIMENTAL

Forscher dosieren KI-Eingriffe per Wahrscheinlichkeit

Ein neues Paper auf arXiv schlägt vor, Alignment nicht stur, sondern selektiv zur Inferenz-Zeit anzuwenden. Statt jedes Token zu kontrollieren, soll das Modell entscheiden: ...

arXiv AI/ML/NLP · 2026-06-11 07:20:10.908730+00:00 · Score 2/10

TOOLS

Poetiq-Wrapper pusht jedes LLM auf neuen SOTA

Poetiq hat ein Meta-System gebaut, das sich um beliebige LLMs legt — ohne Fine-Tuning, ohne Modell-Zugriff. Ergebnis: Jedes getestete Modell wurde besser. Neuer State-of-the-Art ...

MarkTechPost · 2026-05-15 04:22:38.321478+00:00 · Score 6/10

TOOLS

Sakana AI and NVIDIA Introduce TwELL with CUDA Kernels for 20.5% Inference and 21.9% Training Speedup in LLMs

NVIDIA und Sakana AI stellen Twell vor: CUDA-Kernel für 20,5 % schnelleres Inferenz und 21,9 % schnelleres Training von LLMs

MarkTechPost · 2026-05-11 10:26:02.209858+00:00 · Score 7/10

TOOLS

Together AI macht Open-Source-Modelle doppelt so schnell

Inference-Speed ist das neue Wettrüsten. Together AI knallt jetzt Benchmark-Ergebnisse auf den Tisch: Bis zu 2x schnellere Inferenz für die besten Open-Source-Modelle.

Together AI Blog · 2026-03-23 21:19:04.910781+00:00 · Score 6/10

AGENTS

Mehr Rechenzeit macht LLMs schlauer

Inference-Time Scaling ist der neue Hebel der KI-Branche. Statt größere Modelle zu bauen, lässt man bestehende Modelle einfach länger nachdenken. Sebastian Raschka hat die ...

Ahead of AI (Raschka) · 2026-03-22 01:22:46.858707+00:00 · Score 5/10

SUCHE

Together verschenkt Inference — Krypto zahlt mit

Rebellions holt 400 Millionen für Nvidia-Angriff

Together AI macht LLM-Inference 4x schneller

Megaport pumpt 594 Millionen in KI-Cloud

Koreanischer Chip-Startup holt 400 Millionen Dollar

Nvidia spaltet Inference mit neuem Rubin-Chip

NVIDIA verschenkt Turbo-Tool für KI-Inference

Gimlet Labs holt 80 Millionen für Multi-Chip-Trick

Groq jagt 650 Millionen — Nvidia zahlte 20 Mrd.

DeepSeek V4 kostet fast nichts — und läuft auf Huawei

Cerebras will an die Börse — zweiter Anlauf

Together AI macht DeepSeek-R1 absurd schnell

Google verdreifacht Gemma-4-Speed mit MTP

Google spaltet seinen Super-Chip in zwei

Arm baut erstmals eigene Chips — Meta kauft

Forscher dosieren KI-Eingriffe per Wahrscheinlichkeit

Poetiq-Wrapper pusht jedes LLM auf neuen SOTA

Sakana AI and NVIDIA Introduce TwELL with CUDA Kernels for 20.5% Inference and 21.9% Training Speedup in LLMs

Together AI macht Open-Source-Modelle doppelt so schnell

Mehr Rechenzeit macht LLMs schlauer