Tencent AI Lab stellt Covo-Audio als Open Source bereit. Ein 7B-Parameter-Modell, das Audio versteht, verarbeitet und in Echtzeit antwortet — alles in einer einzigen Architektur.
Eine neue Notebook-Sammlung schmeißt fünf Audio-Modelle in einen Colab-Topf. Trainieren ohne Server-Park.
Audio war immer das Stiefkind der multimodalen KI. Bilder verstehen? Kein Problem. Aber Sprache, Musik und Umgebungsgeräusche gleichzeitig verarbeiten? Daran scheitern die meisten ...
Lightricks haut sein neues Audio-Video-Modell als Open Source raus. DiT-basiert, mit synchronisiertem Sound, frei auf GitHub.
Google hat mit Gemma 4 E2B ein Modell rausgehauen, das Audio auf dem lokalen Rechner transkribiert. Kein Cloud-API, kein Abo — ein einziger Terminal-Befehl reicht.
Stability AI hat die Open Weights von Stable Audio 3 veröffentlicht — samt Research Paper. Latent Diffusion für Stereo-Sound in Studioqualität, drei Modellgrößen, frei zum ...
Google hat auf der IO 2026 seine eigene Audio-Brille vorgestellt. Sprachbefehle, Gemini, fertig. Klingt vertraut? Ist es auch.
Google feuert das nächste Modell raus. Gemini 3.1 Flash Live ist ab sofort in Google-Produkten verfügbar — und zielt direkt auf natürlichere Audio-KI.
Stability AI hat Audio 3.0 veröffentlicht. Das neue Modell generiert Tracks bis zu sechs Minuten — die kleine Version läuft sogar direkt auf dem Gerät.
Google legt nach. Mit Gemini Omni kommt ein multimodales Modell, das aus Text, Bildern und Audio direkt Videos baut — per Konversation.
NVIDIA bringt Nemotron 3 Nano Omni. Ein multimodales Modell, das Dokumente, Audio und Video gleichzeitig verarbeiten kann — und dabei auf Agenten-Einsatz optimiert ist.
Google hat Gemini 3.1 Flash TTS veröffentlicht — ein Text-to-Speech-Modell, das sich per Prompt steuern lässt. Simon Willison berichtet gleich zweimal darüber. Das Ding ist ...
Ein einziges Bild rein, ein sprechender Avatar raus. Das chinesische Forschungsmodell LPM 1.0 generiert in Echtzeit Videos mit Mimik, Lippensync und emotionalen Reaktionen — aus ...
Alibaba hat Qwen3.5-Omni veröffentlicht — ein KI-Modell, das Text, Bilder, Audio und Video gleichzeitig verarbeitet. Und ja, es soll besser sein als Googles Gemini.
Alibaba hat nachgelegt. Das Qwen-Team veröffentlicht Qwen3.5-Omni — ein Modell, das Text, Bild, Audio und Video nativ verarbeitet. Kein Zusammenkleben einzelner Module mehr, ...
Google hat Gemini 3.1 Flash Live als Preview veröffentlicht — ein Modell, das Audio, Video und Tool-Nutzung in Echtzeit verarbeitet. Entwickler können ab sofort über die Gemini ...
OpenAI bringt gleich drei neue Realtime-Modelle und schaltet die Realtime-API auf produktiv. Schluss mit Beta-Ausreden für Entwickler.
Ihr lasst KI eure persönlichen Podcasts basteln? Dieses neue Kommandozeilen-Tool spielt sie direkt in eure Spotify-Bibliothek ein.
Ein Modell für alles: NVIDIA hat Nemotron 3 Nano Omni veröffentlicht — und Together AI stellt es Entwicklern ab Tag 1 bereit.
Eine neue DAW will Musikproduktion mit generativer KI verschmelzen. Mozart Studio 1.0 nennt sich "Generative Audio Workstation" — und unterstützt sogar klassische VST-Plugins.