Microsoft verschenkt seinen Sprach-KI-Motor
Open Source von Big Tech? Diesmal meint Microsoft es ernst. VibeVoice heißt das Ding — und es versteht 60 Minuten Audio am Stück.
Was VibeVoice kann
Microsofts neues Speech-to-Text-Modell schluckt Langform-Audio ohne zu würgen. Eine Stunde Podcast, Meeting oder Vortrag — rein damit, strukturiertes Transkript raus. Inklusive Sprechererkennung: Wer hat wann was gesagt.
Die Fakten
- Modell:** VibeVoice-ASR (Automatic Speech Recognition)
- Audio-Limit:** 60 Minuten in einem Durchlauf
- Output:** Strukturierte Transkription mit Sprecher-Zuordnung
- Integration:** Direkt über Hugging Face Transformers nutzbar
- Lizenz:** Open Source
- Hersteller:** Microsoft Research
Warum das nicht egal ist
Die meisten Open-Source-Sprachmodelle knicken bei langen Aufnahmen ein. Whisper? Segmentiert in 30-Sekunden-Häppchen. VibeVoice frisst die ganze Stunde auf einmal. Das ist kein Spielzeug — das ist ein ernsthafter Arbeits-Ersatz für teure Transkriptions-Dienste.
✅ Pro
- 60 Minuten am Stück, kein Chunking nötig
- Sprechererkennung eingebaut
- Hugging Face Integration — drei Zeilen Code reichen
- Komplett Open Source, kein API-Lock-in
❌ Con
- Qualität im Vergleich zu kommerziellen Diensten noch unklar
- Microsoft-Open-Source heißt nicht immer: bleibt auch offen
- Community und Dokumentation noch jung
💡 Was das bedeutet
Wer heute für Otter.ai, Deepgram oder ähnliche Dienste zahlt, hat jetzt eine kostenlose Alternative mit Enterprise-Backing. Entwickler können das Modell lokal laufen lassen — kein Cloud-Zwang, keine Abo-Falle. Für Podcast-Produzenten, Journalisten und Meeting-Geplagte könnte das der Befreiungsschlag sein.