Google überrascht mit verrücktem TTS-Modell
Google hat Gemini 3.1 Flash TTS veröffentlicht — ein Text-to-Speech-Modell, das sich per Prompt steuern lässt. Simon Willison berichtet gleich zweimal darüber. Das Ding ist seltsam.
Was Gemini 3.1 Flash TTS kann
Das Modell läuft über die Standard-Gemini-API mit der Model-ID `gemini-3.1-flash-tts-preview`. Es spuckt ausschließlich Audio-Dateien aus. Kein Text, kein Multi-Modal. Nur Stimme.
- Modell-ID:** gemini-3.1-flash-tts-preview
- Output:** ausschließlich Audio-Files
- API:** Standard Gemini-API
- Steuerung:** komplett per Prompt
Der Prompting-Guide ist absurd
Statt simpler Anweisungen wie "lies diesen Text vor" verlangt Google ein komplettes Drehbuch. Beispiel-Prompt für ein paar kurze Sätze: "AUDIO PROFILE: Jaz R., THE MORNING HYPE, THE SCENE: The London Studio, 10:00 PM in a glass-walled studio…"
Für ein paar Sekunden Audio brauchst du eine ganze Szenenbeschreibung wie aus einem Filmskript.— Simon Willison, willison.net
✅ Pro
- Hohe Kontrolle über Stimme, Stimmung, Setting
- Über die bekannte Gemini-API nutzbar
- Cinematic Output möglich
❌ Con
- Prompt-Aufwand absurd hoch für simple Sätze
- Nur Audio-Output, keine Multi-Modalität
- Preview-Status — noch nicht stabil
💡 Was das bedeutet
Google geht beim TTS einen anderen Weg als ElevenLabs oder OpenAI. Statt "Stimme + Text = fertig" willst du hier Regie führen. Für Hörspiele und Podcast-Produktion ein Spielzeug. Für die schnelle Voice-Notification deiner App — totaler Overkill.