Wer mit KI redet, will nicht warten. Salesforce AI Research hat ein neues Framework vorgestellt, das die Antwortzeit von sprachbasierten RAG-Systemen um das 316-Fache drückt.
OpenAI rüstet die Responses API auf WebSockets um. Schluss mit dem ständigen HTTP-Hin-und-Her bei Agenten-Workflows.
Google DeepMind feuert das nächste Update raus. Gemini 3.1 Flash Live soll Audio-Interaktionen flüssiger, natürlicher und präziser machen — weniger Latenz, mehr Genauigkeit.
Together AI bringt den schnellsten Sprach-KI-Stack auf den Markt. Unter einer Sekunde Latenz — vom gesprochenen Wort bis zur gesprochenen Antwort.
Alibabas Qwen-Team hat ein neues Echtzeit-Übersetzungsmodell rausgehauen. Qwen3.5-LiveTranslate-Flash übersetzt Sprache in 60 Sprachen — bevor der Satz zu Ende ist.
KI frisst Strom wie nichts Gutes. Rechenzentren blasen immer mehr CO₂ in die Luft, und die großen Tech-Konzerne flirten bereits mit Atomkraft. Jetzt wollen Forscher einen anderen ...
Google bringt zwei neue Preisstufen für die Gemini-API. Flex und Priority heißen die neuen Tiers — und Entwickler müssen sich jetzt entscheiden: Geld sparen oder Geschwindigkeit ...
Google hat Gemini 3.1 Flash Live als Preview veröffentlicht — ein Modell, das Audio, Video und Tool-Nutzung in Echtzeit verarbeitet. Entwickler können ab sofort über die Gemini ...
Perplexity baut sein Deep Research um. Die neue Version läuft jetzt in "Computer" — und feuert jede Teilfrage an ein anderes Frontier-Modell.
Google DeepMind hat DiffusionGemma veröffentlicht — ein Open-Model, das Text nicht Wort für Wort, sondern in ganzen Blöcken parallel generiert. NVIDIA liefert die passende ...
Together AI hat MiniMax-M3 in Produktion gebracht — mit einem Inferenz-Stack, der 1M-Token-Kontext nicht nur möglich, sondern bezahlbar macht. Der Blogpost liest sich wie ein ...
H Company veröffentlicht Holo3.1 — ein Open-Weight-Modell für Computer-Use-Agenten, das komplett lokal läuft. Keine Cloud, keine API-Kosten, keine Latenz.
Hugging Face hat seinen Tisch-Roboter Reachy Mini auf vollständig lokalen Betrieb umgestellt. Keine Cloud, keine API-Calls, keine Latenz aus Übersee.
AWS und Stream zeigen, wie ein Open-Source-Framework die klassische Voice-Pipeline kollabiert. Statt STT → LLM → TTS gibt's jetzt Speech-to-Speech direkt aus Bedrock.
OpenAI dreht an der Voice-Schraube. Neue Voice-Intelligence-Features landen ab sofort im API — und sollen weit mehr können als Callcenter beschallen.
Ukrainische Drohnenpiloten fangen russische Kamikaze-Drohnen ab — vom Hotelzimmer aus. Die Entfernung zum Schlachtfeld: bis zu 2.000 Kilometer.
Google hat Gemma 4 veröffentlicht — eine Modellfamilie, die KI direkt auf Android-Geräten laufen lässt. Ohne Cloud, ohne Umwege, ohne Latenz.
Ein neues Tool will das Compute-Problem von Open-Source-Modellen lösen. Mesh LLM bündelt die Rechenleistung mehrerer Nutzer zu einem gemeinsamen Pool — damit auch fette Modelle ...
Ein neues Indie-Projekt will Rechenleistung bündeln. Mesh LLM setzt auf verteiltes Compute-Pooling, damit Open-Source-Modelle auf normaler Hardware laufen.
Schluss mit der Zwei-Klassen-Gesellschaft. Open-Weight-Modelle wie GLM-5 und MiniMax M2.7 liefern bei Agent-Tasks jetzt auf dem Niveau von GPT-4o und Claude — zu einem Bruchteil ...