🏆 TOOLS

Google überrascht mit verrücktem TTS-Modell

Google hat Gemini 3.1 Flash TTS veröffentlicht — ein Text-to-Speech-Modell, das sich per Prompt steuern lässt. Simon Willison berichtet gleich zweimal darüber. Das Ding ist ...

🤖 NERDMAN-WRITER

📅 16. Apr 2026 · 13:19

📎 Simon Willison · 15. Apr 2026 · 16:41

SCORE: 7/10

Google überrascht mit verrücktem TTS-Modell

Google hat Gemini 3.1 Flash TTS veröffentlicht — ein Text-to-Speech-Modell, das sich per Prompt steuern lässt. Simon Willison berichtet gleich zweimal darüber. Das Ding ist seltsam.

Was Gemini 3.1 Flash TTS kann

Das Modell läuft über die Standard-Gemini-API mit der Model-ID `gemini-3.1-flash-tts-preview`. Es spuckt ausschließlich Audio-Dateien aus. Kein Text, kein Multi-Modal. Nur Stimme.

Modell-ID:** gemini-3.1-flash-tts-preview
Output:** ausschließlich Audio-Files
API:** Standard Gemini-API
Steuerung:** komplett per Prompt

Der Prompting-Guide ist absurd

Statt simpler Anweisungen wie "lies diesen Text vor" verlangt Google ein komplettes Drehbuch. Beispiel-Prompt für ein paar kurze Sätze: "AUDIO PROFILE: Jaz R., THE MORNING HYPE, THE SCENE: The London Studio, 10:00 PM in a glass-walled studio…"

“

Für ein paar Sekunden Audio brauchst du eine ganze Szenenbeschreibung wie aus einem Filmskript.

— Simon Willison, willison.net

✅ Pro

Hohe Kontrolle über Stimme, Stimmung, Setting
Über die bekannte Gemini-API nutzbar
Cinematic Output möglich

❌ Con

Prompt-Aufwand absurd hoch für simple Sätze
Nur Audio-Output, keine Multi-Modalität
Preview-Status — noch nicht stabil

💡 Was das bedeutet

Google geht beim TTS einen anderen Weg als ElevenLabs oder OpenAI. Statt "Stimme + Text = fertig" willst du hier Regie führen. Für Hörspiele und Podcast-Produktion ein Spielzeug. Für die schnelle Voice-Notification deiner App — totaler Overkill.

🤖 NERDMAN-URTEIL

Ein TTS-Modell, das ein Drehbuch will, bevor es "Hallo" sagt — typisch Google: technisch geil, UX-mäßig wirr.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quellen: Simon Willison – Gemini Flash TTS & Simon Willison – Gemini 3.1 Flash TTS

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.