Cohere verschenkt Sprach-KI für alle
Cohere droppt ein Open-Source-Modell nur für Transkription. Und das Ding läuft auf normalen Grafikkarten.
Die harten Fakten
- Modell-Größe:** 2 Milliarden Parameter
- Zweck:** Reine Sprache-zu-Text-Transkription
- Sprachen:** 14 zum Start
- Hardware:** Läuft auf Consumer-GPUs
- Lizenz:** Open Source, selbst hosten möglich
Was Cohere hier anders macht
Die meisten Voice-Modelle sind entweder riesig, proprietär oder beides. Cohere geht den anderen Weg: Klein, offen, spezialisiert. Kein Alleskönner-Modell, das nebenbei auch noch transkribiert — sondern ein Werkzeug, das genau eine Sache können soll.
2 Milliarden Parameter sind ein Witz verglichen mit den Hunderte-Milliarden-Monstern der großen Labs. Aber genau das ist der Punkt. Wer Transkription braucht, will keine GPU-Farm mieten.
✅ Pro
- Open Source — volle Kontrolle über eigene Daten
- Klein genug für lokale Hardware
- Spezialisiert statt aufgebläht
❌ Con
- Nur 14 Sprachen (Whisper kann 90+)
- Kein Top-Lab — Community-Support fraglich
- Benchmark-Vergleiche fehlen komplett
Was das bedeutet
Für Entwickler, die Sprachdaten lokal verarbeiten müssen — DSGVO, Medizin, Anwaltskanzleien — ist das ein direktes Angebot. Kein API-Call nach Amerika, keine Drittanbieter-Abhängigkeit. Ob die Qualität mit Whisper mithalten kann, muss sich erst zeigen.