Frankreichs KI-Liebling Mistral steigt ins Text-to-Speech-Geschäft ein. Mit Voxtral TTS liefert das Pariser Start-up sein erstes Sprachmodell — und macht es direkt als Open ...
Google DeepMind feuert das nächste Update raus. Gemini 3.1 Flash Live soll Audio-Interaktionen flüssiger, natürlicher und präziser machen — weniger Latenz, mehr Genauigkeit.
Google feuert das nächste Modell raus. Gemini 3.1 Flash Live ist ab sofort in Google-Produkten verfügbar — und zielt direkt auf natürlichere Audio-KI.
Mira Muratis neues Start-up hat sein erstes Modell veröffentlicht. Es soll Sprach-KI endlich natürlich machen.
Sakana AI aus Tokio hat das Zögern bei Sprach-KI beendet. Ihr neues System KAME kombiniert Geschwindigkeit und Intelligenz.
Cohere droppt ein Open-Source-Modell nur für Transkription. Und das Ding läuft auf normalen Grafikkarten.
NVIDIA hat PersonaPlex veröffentlicht — ein Speech-to-Speech-Modell, das in Echtzeit spricht und dabei eine feste Persona halten kann. Kein Chatbot-Gestammel, sondern echte ...
Ein Student hat den Star-Wars-Droiden zum Leben erweckt. Mit einem Raspberry Pi und KI.
Tencent AI Lab stellt Covo-Audio als Open Source bereit. Ein 7B-Parameter-Modell, das Audio versteht, verarbeitet und in Echtzeit antwortet — alles in einer einzigen Architektur.
Google hat Gemini 3.1 Flash Live als Preview veröffentlicht — ein Modell, das Audio, Video und Tool-Nutzung in Echtzeit verarbeitet. Entwickler können ab sofort über die Gemini ...
OpenAI hat drei neue Audio-Modelle in die API geworfen. Jetzt kann jeder Entwickler Echtzeit-KI-Gespräche in seine Apps bauen.
SwitchBot bringt einen Roboter auf den Markt, der wie ein Stofftier aussieht. Aber er kann laufen, mit KI sprechen und deine Stimmung erkennen.
Das Daten-Öl für KI geht zur Neige. Googles neue Methode Simula soll jetzt Spezialwissen künstlich herstellen.