Together AI koppelt sich mit Pearl Research Labs zusammen und subventioniert KI-Inference durch Krypto-Emissionen. Ein neuer Endpoint geht live — billiger als alles andere am ...
Ein südkoreanisches Chip-Startup will Nvidia beim KI-Inference-Geschäft angreifen. Rebellions hat dafür gerade 400 Millionen Dollar eingesammelt — und plant noch dieses Jahr den ...
Together AI hat ein neues System vorgestellt, das LLM-Inference während der Nutzung beschleunigt. Der Name: ATLAS — AdapTive-LeArning Speculator System.
Australiens Netzwerk-Riese Megaport holt sich 827 Millionen australische Dollar vom Kapitalmarkt. Das Geld fließt in eine neue Inference-Cloud für KI-Workloads.
Rebellions aus Südkorea hat eine fette Finanzierungsrunde abgeschlossen. Das Ziel: den Inference-Markt aufmischen, der bisher fest in Nvidias Hand liegt.
Nvidia hat den Rubin CPX vorgestellt — einen Spezialchip, der nur eine Aufgabe hat: die Prefill-Phase bei Inference so schnell wie möglich abfeuern.
NVIDIA stellt AITune vor — ein Open-Source-Toolkit, das automatisch das schnellste Inference-Backend für jedes PyTorch-Modell findet. Schluss mit dem manuellen Rumgefrickel.
Ein Startup aus dem Inference-Bereich hat gerade eine fette Series A eingesammelt. Gimlet Labs will KI-Modelle gleichzeitig auf Chips von NVIDIA, AMD, Intel, ARM, Cerebras und ...
Der Chip-Startup Groq will laut Axios intern 650 Millionen Dollar einsammeln. Der Move kommt direkt nach Nvidias 20-Milliarden-Deal mit dem Konkurrenten.
DeepSeek legt nach. Das neue V4-Modell soll mit den besten US-Modellen mithalten — bei einem Bruchteil der Inference-Kosten. Und es läuft auf Huawei-Chips.
Der KI-Chip-Hersteller Cerebras wagt erneut den Gang aufs Parkett. Vor Monaten noch zurückgezogen, jetzt wieder heiß auf Investoren-Geld.
Open-Source-Reasoning zum Turbo-Preis: Together AI hat einen neuen Inference-Engine vorgestellt, der DeepSeek-R1-0528 auf NVIDIA Blackwell-GPUs auf Höchstgeschwindigkeit bringt.
Google hat Multi-Token Prediction (MTP) Drafters für Gemma 4 veröffentlicht. Das Ding macht Inference dreimal schneller — ohne Qualitätsverlust.
Google hat auf der Cloud Next in Las Vegas zwei neue Eigenentwicklungen vorgestellt: TPU 8 kommt nicht als ein Chip, sondern als Doppelpack. Einer für Training, einer für ...
Jahrzehntelang hat Arm nur Baupläne verkauft. Jetzt produziert der britische Chipdesigner seinen ersten eigenen Prozessor — und der erste Abnehmer steht schon fest.
Ein neues Paper auf arXiv schlägt vor, Alignment nicht stur, sondern selektiv zur Inferenz-Zeit anzuwenden. Statt jedes Token zu kontrollieren, soll das Modell entscheiden: ...
Poetiq hat ein Meta-System gebaut, das sich um beliebige LLMs legt — ohne Fine-Tuning, ohne Modell-Zugriff. Ergebnis: Jedes getestete Modell wurde besser. Neuer State-of-the-Art ...
NVIDIA und Sakana AI stellen Twell vor: CUDA-Kernel für 20,5 % schnelleres Inferenz und 21,9 % schnelleres Training von LLMs
Inference-Speed ist das neue Wettrüsten. Together AI knallt jetzt Benchmark-Ergebnisse auf den Tisch: Bis zu 2x schnellere Inferenz für die besten Open-Source-Modelle.
Inference-Time Scaling ist der neue Hebel der KI-Branche. Statt größere Modelle zu bauen, lässt man bestehende Modelle einfach länger nachdenken. Sebastian Raschka hat die ...