Suche: Latenz

AGENTS

Salesforce killt Voice-RAG-Latenz um Faktor 316

Wer mit KI redet, will nicht warten. Salesforce AI Research hat ein neues Framework vorgestellt, das die Antwortzeit von sprachbasierten RAG-Systemen um das 316-Fache drückt.

MarkTechPost · 2026-03-30 10:18:48.698834+00:00 · Score 6/10

AGENTS

OpenAI killt 40% Latenz in Agenten-API

OpenAI rüstet die Responses API auf WebSockets um. Schluss mit dem ständigen HTTP-Hin-und-Her bei Agenten-Workflows.

InfoQ AI/ML · 2026-05-07 16:20:41.795163+00:00 · Score 7/10

TOOLS

Google macht Sprach-KI schneller und menschlicher

Google DeepMind feuert das nächste Update raus. Gemini 3.1 Flash Live soll Audio-Interaktionen flüssiger, natürlicher und präziser machen — weniger Latenz, mehr Genauigkeit.

Google DeepMind · 2026-03-30 01:28:10.127379+00:00 · Score 7/10

TOOLS

Together AI knackt die Sekunden-Mauer bei Voice-KI

Together AI bringt den schnellsten Sprach-KI-Stack auf den Markt. Unter einer Sekunde Latenz — vom gesprochenen Wort bis zur gesprochenen Antwort.

Together AI Blog · 2026-03-23 21:18:33.435700+00:00 · Score 7/10

TOOLS

Alibaba killt die Dolmetscher-Pause

Alibabas Qwen-Team hat ein neues Echtzeit-Übersetzungsmodell rausgehauen. Qwen3.5-LiveTranslate-Flash übersetzt Sprache in 60 Sprachen — bevor der Satz zu Ende ist.

MarkTechPost · 2026-05-20 10:20:47.095441+00:00 · Score 6/10

EXPERIMENTAL

Dezentrales Training soll KIs Energiehunger stoppen

KI frisst Strom wie nichts Gutes. Rechenzentren blasen immer mehr CO₂ in die Luft, und die großen Tech-Konzerne flirten bereits mit Atomkraft. Jetzt wollen Forscher einen anderen ...

IEEE Spectrum AI · 2026-04-07 16:20:46.290038+00:00 · Score 2/10

TOOLS

Google macht Gemini-API billiger — mit Haken

Google bringt zwei neue Preisstufen für die Gemini-API. Flex und Priority heißen die neuen Tiers — und Entwickler müssen sich jetzt entscheiden: Geld sparen oder Geschwindigkeit ...

Google AI Blog · 2026-04-03 09:17:31.536726+00:00 · Score 6/10

HOT

Google bringt Echtzeit-Stimme für KI-Agenten

Google hat Gemini 3.1 Flash Live als Preview veröffentlicht — ein Modell, das Audio, Video und Tool-Nutzung in Echtzeit verarbeitet. Entwickler können ab sofort über die Gemini ...

MarkTechPost · 2026-03-27 05:19:19.404122+00:00 · Score 7/10

AGENTS

Perplexity schickt Deep Research durch 20 Modelle

Perplexity baut sein Deep Research um. Die neue Version läuft jetzt in "Computer" — und feuert jede Teilfrage an ein anderes Frontier-Modell.

MarkTechPost · 2026-06-12 01:19:39.158833+00:00 · Score 6/10

HOT

Google bringt Diffusion-Modell für RTX-GPUs

Google DeepMind hat DiffusionGemma veröffentlicht — ein Open-Model, das Text nicht Wort für Wort, sondern in ganzen Blöcken parallel generiert. NVIDIA liefert die passende ...

Nvidia Blog · 2026-06-10 19:21:09.341084+00:00 · Score 6/10

TOOLS

Together knackt 1 Million Token im Kontext

Together AI hat MiniMax-M3 in Produktion gebracht — mit einem Inferenz-Stack, der 1M-Token-Kontext nicht nur möglich, sondern bezahlbar macht. Der Blogpost liest sich wie ein ...

Together AI Blog · 2026-06-02 22:19:00.929269+00:00 · Score 6/10

AGENTS

Holo3.1 macht Computer-Agenten lokal

H Company veröffentlicht Holo3.1 — ein Open-Weight-Modell für Computer-Use-Agenten, das komplett lokal läuft. Keine Cloud, keine API-Kosten, keine Latenz.

Hugging Face Blog · 2026-06-02 16:18:38.403411+00:00 · Score 7/10

EXPERIMENTAL

Reachy Mini spricht jetzt komplett offline

Hugging Face hat seinen Tisch-Roboter Reachy Mini auf vollständig lokalen Betrieb umgestellt. Keine Cloud, keine API-Calls, keine Latenz aus Übersee.

Hugging Face Blog · 2026-05-27 16:19:56.847042+00:00 · Score 5/10

AGENTS

Voice-Agents in einer Codebasis statt fünf

AWS und Stream zeigen, wie ein Open-Source-Framework die klassische Voice-Pipeline kollabiert. Statt STT → LLM → TTS gibt's jetzt Speech-to-Speech direkt aus Bedrock.

AWS AI Blog · 2026-05-14 19:40:30.753720+00:00 · Score 6/10

TOOLS

OpenAI bringt Stimme ins API

OpenAI dreht an der Voice-Schraube. Neue Voice-Intelligence-Features landen ab sofort im API — und sollen weit mehr können als Callcenter beschallen.

TechCrunch AI · 2026-05-08 01:18:17.918475+00:00 · Score 7/10

EXPERIMENTAL

Drohnenpiloten schießen Shaheds aus 2.000 km ab

Ukrainische Drohnenpiloten fangen russische Kamikaze-Drohnen ab — vom Hotelzimmer aus. Die Entfernung zum Schlachtfeld: bis zu 2.000 Kilometer.

Golem KI · 2026-04-21 07:16:31.903441+00:00 · Score 3/10

TOOLS

Google drückt Gemma 4 direkt aufs Handy

Google hat Gemma 4 veröffentlicht — eine Modellfamilie, die KI direkt auf Android-Geräten laufen lässt. Ohne Cloud, ohne Umwege, ohne Latenz.

InfoQ AI/ML · 2026-04-13 22:20:04.846881+00:00 · Score 7/10

EXPERIMENTAL

Mesh LLM teilt GPU-Power unter Fremden auf

Ein neues Tool will das Compute-Problem von Open-Source-Modellen lösen. Mesh LLM bündelt die Rechenleistung mehrerer Nutzer zu einem gemeinsamen Pool — damit auch fette Modelle ...

Product Hunt AI · 2026-04-03 16:18:25.291893+00:00 · Score 3/10

EXPERIMENTAL

Mesh LLM will GPU-Power vom Nachbarn klauen

Ein neues Indie-Projekt will Rechenleistung bündeln. Mesh LLM setzt auf verteiltes Compute-Pooling, damit Open-Source-Modelle auf normaler Hardware laufen.

Product Hunt AI · 2026-04-03 10:19:50.098390+00:00 · Score 3/10

AGENTS

Open Models schlagen zurück gegen GPT und Claude

Schluss mit der Zwei-Klassen-Gesellschaft. Open-Weight-Modelle wie GLM-5 und MiniMax M2.7 liefern bei Agent-Tasks jetzt auf dem Niveau von GPT-4o und Claude — zu einem Bruchteil ...

LangChain Blog · 2026-04-03 09:14:13.206585+00:00 · Score 7/10

SUCHE

Salesforce killt Voice-RAG-Latenz um Faktor 316

OpenAI killt 40% Latenz in Agenten-API

Google macht Sprach-KI schneller und menschlicher

Together AI knackt die Sekunden-Mauer bei Voice-KI

Alibaba killt die Dolmetscher-Pause

Dezentrales Training soll KIs Energiehunger stoppen

Google macht Gemini-API billiger — mit Haken

Google bringt Echtzeit-Stimme für KI-Agenten

Perplexity schickt Deep Research durch 20 Modelle

Google bringt Diffusion-Modell für RTX-GPUs

Together knackt 1 Million Token im Kontext

Holo3.1 macht Computer-Agenten lokal

Reachy Mini spricht jetzt komplett offline

Voice-Agents in einer Codebasis statt fünf

OpenAI bringt Stimme ins API

Drohnenpiloten schießen Shaheds aus 2.000 km ab

Google drückt Gemma 4 direkt aufs Handy

Mesh LLM teilt GPU-Power unter Fremden auf

Mesh LLM will GPU-Power vom Nachbarn klauen

Open Models schlagen zurück gegen GPT und Claude