Google hat Gemini 3.1 Flash TTS veröffentlicht — ein Text-to-Speech-Modell, das sich per Prompt steuern lässt. Simon Willison berichtet gleich zweimal darüber. Das Ding ist ...
Europas teuerster KI-Laden liefert wieder. Mistral hat Voxtral TTS gelauncht — ein Text-to-Speech-Modell, das laut Benchmarks mit den Besten mithalten kann. Und ja, es ist ...
Mistral AI steigt ins Text-to-Speech-Geschäft ein. Das neue Modell heißt Voxtral TTS und soll mehrsprachig, realistisch und ausdrucksstark klingen.
Das französische KI-Startup Mistral steigt ins Sprach-Game ein. Mit Voxtral TTS liefern die Pariser ihr erstes Text-to-Speech-Modell — und zwar als Open-Weights-Version.
Die meisten KI-Stimmen sind für Monologe gemacht, nicht für Gespräche. Inworld AI will das ändern und stellt Realtime TTS-2 vor. Dieses Modell passt sich in Echtzeit an deine ...
Google hat sein neues Audio-Modell gestartet. Gemini 3.1 Flash TTS soll KI-Stimmen ausdrucksstärker machen — und ist ab sofort in Google-Produkten verfügbar.
Mistral AI steigt ins Text-to-Speech-Geschäft ein. Das französische KI-Lab hat ein eigenes TTS-Modell vorgestellt — neun Sprachen, Fokus auf Voice Agents.
Frankreichs KI-Liebling Mistral steigt ins Text-to-Speech-Geschäft ein. Mit Voxtral TTS liefert das Pariser Start-up sein erstes Sprachmodell — und macht es direkt als Open ...
Mistral AI steigt ins Text-to-Speech-Geschäft ein. Das französische KI-Unternehmen hat ein eigenes TTS-Modell vorgestellt, das neun Sprachen beherrscht und speziell für Voice ...
Französische Forscher schmeißen die Grafikkarte raus. Ihr neues Tool "Pocket TTS" erzeugt Sprache direkt auf der CPU. Einfach installieren und loslegen.
Chinesische Forscher bauen ein Text-to-Speech-System, das komplett ohne diskrete Token arbeitet. Stattdessen: durchgehende Diffusion, End-to-End, direkt von Text zu Sprache.
Die Franzosen drehen auf. Mistral hat mit Voxtral TTS ein Open-Weight Text-to-Speech-Modell gelauncht — und nebenbei noch Forge, Leanstral und einen Ausblick auf Mistral 4 ...
Mistral schickt ein neues TTS-Modell ins Rennen — und zielt direkt auf ElevenLabs. Voxtral klont Stimmen mehrsprachig und verspricht echte Emotion statt Roboter-Vortrag.
AWS und Stream zeigen, wie ein Open-Source-Framework die klassische Voice-Pipeline kollabiert. Statt STT → LLM → TTS gibt's jetzt Speech-to-Speech direkt aus Bedrock.
Neuphonic wirft ein neues Text-to-Speech-Modell auf HuggingFace. Läuft lokal, frisst kaum Ressourcen — und kann sogar Deutsch.
Ein chinesischer Entwickler hat MoneyPrinterTurbo auf GitHub veröffentlicht — ein Tool, das per Knopfdruck komplette Kurzvideos generiert. Stichwort rein, Video raus.
Auf YouTube erobern KI-generierte "History-Influencer" die Feeds. Eine junge Frau im grünen Puffer landet im Jahr 1536 — und trifft Henry VIII.
Ein kleines Sprachmodell aus Neuseeland zeigt, wie KI auch funktioniert: ohne Datenklau, ohne Konzern-Logik. Te Hiku Media baut ein Text-to-Speech-Modell für te reo Māori — und ...
Resemble AI hat ein neues Spielzeug gelauncht: DramaBox verwandelt Szenenbeschreibungen in komplette Vocal-Performances. Statt nur Text vorzulesen, soll die KI flüstern, schreien, ...
Ein Python-Bot baut komplette Reddit-Story-Videos. Ohne Schnitt, ohne Asset-Sammeln, ohne Editor. Ein Command — fertig.