Microsoft schenkt euch Whisper-Killer für lau
Microsoft hat VibeVoice veröffentlicht — ein Speech-to-Text-Modell mit eingebauter Speaker Diarization. MIT-lizenziert. Und Simon Willison hat es gerade erst entdeckt, obwohl das Ding seit Januar draußen ist.
Was VibeVoice kann
Das Modell erkennt nicht nur Sprache. Es erkennt auch, wer spricht. Speaker Diarization ist direkt im Modell verbaut — kein Extra-Tool, keine Pipeline, kein Gefrickel.
- Lizenz:** MIT — komplett offen, auch kommerziell nutzbar
- Modellgröße:** 17,3 GB (Vollversion)
- MLX-Version:** 5,71 GB (4-Bit, für Mac optimiert)
- Release:** 21. Januar 2026
- Architektur:** Whisper-Stil, aber mit Diarization on top
Ein Einzeiler reicht
Simon Willison hat das Modell auf seinem Mac mit einem einzigen Kommando zum Laufen gebracht. Tools: `uv`, `mlx-audio` von Prince Canuma, dazu die 4-Bit-Konversion von mlx-community. Getestet hat er es an einem Podcast mit Lenny Rachitsky. Ergebnis: läuft.
✅ Pro
- Speaker Diarization direkt eingebaut
- MIT-Lizenz — keine Einschränkungen
- Läuft lokal auf dem Mac
- 4-Bit-Version spart 70% Speicher
❌ Con
- 5,71 GB sind immer noch kein Leichtgewicht
- Seit Januar draußen, kaum Buzz — wenig Community-Feedback
- Nur Audio-to-Text, kein Realtime-Streaming
Was das bedeutet
Wer bisher Whisper plus ein separates Diarization-Tool zusammengeschraubt hat, kann sich das ab sofort sparen. Ein Modell, ein Aufruf, fertig. Für Podcast-Transkription, Meeting-Protokolle oder Interview-Auswertung ist das ein echter Vereinfacher — und das Ganze läuft lokal, ohne Cloud-Zwang.