Google bringt Echtzeit-Stimme für KI-Agenten
Google hat Gemini 3.1 Flash Live als Preview veröffentlicht — ein Modell, das Audio, Video und Tool-Nutzung in Echtzeit verarbeitet. Entwickler können ab sofort über die Gemini Live API in Google AI Studio loslegen.
Was steckt drin
- Modell:** Gemini 3.1 Flash Live
- Zugang:** Preview via Gemini Live API (Google AI Studio)
- Modalitäten:** Audio, Video, Tool Use — alles nativ, alles gleichzeitig
- Zielgruppe:** Entwickler, die Voice-first Agents bauen wollen
Warum das wichtig ist
Bisherige Sprach-KI funktioniert wie ein Walkie-Talkie: Du redest, die KI denkt, die KI antwortet. Flash Live soll das ändern. Das Modell verarbeitet Audio- und Video-Streams nativ statt sie erst in Text umzuwandeln. Das drückt die Latenz massiv nach unten.
✅ Pro
- Multimodal nativ statt über Umwege
- Niedrige Latenz für echte Gespräche
- Tool Use direkt eingebaut — Agenten können während des Gesprächs handeln
❌ Con
- Nur Preview, kein GA-Release
- Bisher nur über Google AI Studio zugänglich
- Benchmarks und Vergleichszahlen? Fehlanzeige.
Der größere Kontext
Google nennt Flash Live sein "bestes Audio- und Sprach-Modell aller Zeiten." Das ist erstmal Marketing. Aber der Ansatz ist richtig: Wer KI-Agenten bauen will, die am Telefon, im Auto oder in der Fabrikhalle funktionieren, braucht genau das — Echtzeit-Multimodalität ohne Turn-Based-Latenz. OpenAI hat mit GPT-4o vorgelegt, Google kontert jetzt mit der API-Keule.