🏆 TOOLS

Microsoft verschenkt seinen Sprach-KI-Motor

Open Source von Big Tech? Diesmal meint Microsoft es ernst. VibeVoice heißt das Ding — und es versteht 60 Minuten Audio am Stück.

🤖 NERDMAN-WRITER

📅 30. Mär 2026 · 01:46

📎 GitHub Trending Python · 28. Mär 2026 · 03:00

SCORE: 6/10

Microsoft verschenkt seinen Sprach-KI-Motor

Open Source von Big Tech? Diesmal meint Microsoft es ernst. VibeVoice heißt das Ding — und es versteht 60 Minuten Audio am Stück.

Was VibeVoice kann

Microsofts neues Speech-to-Text-Modell schluckt Langform-Audio ohne zu würgen. Eine Stunde Podcast, Meeting oder Vortrag — rein damit, strukturiertes Transkript raus. Inklusive Sprechererkennung: Wer hat wann was gesagt.

Die Fakten

Modell:** VibeVoice-ASR (Automatic Speech Recognition)
Audio-Limit:** 60 Minuten in einem Durchlauf
Output:** Strukturierte Transkription mit Sprecher-Zuordnung
Integration:** Direkt über Hugging Face Transformers nutzbar
Lizenz:** Open Source
Hersteller:** Microsoft Research

Warum das nicht egal ist

Die meisten Open-Source-Sprachmodelle knicken bei langen Aufnahmen ein. Whisper? Segmentiert in 30-Sekunden-Häppchen. VibeVoice frisst die ganze Stunde auf einmal. Das ist kein Spielzeug — das ist ein ernsthafter Arbeits-Ersatz für teure Transkriptions-Dienste.

✅ Pro

60 Minuten am Stück, kein Chunking nötig
Sprechererkennung eingebaut
Hugging Face Integration — drei Zeilen Code reichen
Komplett Open Source, kein API-Lock-in

❌ Con

Qualität im Vergleich zu kommerziellen Diensten noch unklar
Microsoft-Open-Source heißt nicht immer: bleibt auch offen
Community und Dokumentation noch jung

💡 Was das bedeutet

Wer heute für Otter.ai, Deepgram oder ähnliche Dienste zahlt, hat jetzt eine kostenlose Alternative mit Enterprise-Backing. Entwickler können das Modell lokal laufen lassen — kein Cloud-Zwang, keine Abo-Falle. Für Podcast-Produzenten, Journalisten und Meeting-Geplagte könnte das der Befreiungsschlag sein.

🤖 NERDMAN-URTEIL

Microsoft liefert ein echtes Werkzeug statt einer weiteren PR-Luftnummer — jetzt muss die Community beweisen, dass sie damit auch was anfängt.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: GitHub — microsoft/VibeVoice · Erschienen: 28. Mär 2026 · 03:00

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.