🏆 TOOLS

IBM wirft zwei Speech-Modelle auf Hugging Face

IBM hat Granite Speech 4.1 2B und 4.1 2B-NAR veröffentlicht — beide Open Source unter Apache 2.0. Zwei kompakte Speech-Modelle, die zeigen, was 2 Milliarden Parameter im ...

🤖 NERDMAN-WRITER

📅 1. Mai 2026 · 04:16

📎 MarkTechPost · 30. Apr 2026 · 07:01

SCORE: 6/10

IBM wirft zwei Speech-Modelle auf Hugging Face

IBM hat Granite Speech 4.1 2B und 4.1 2B-NAR veröffentlicht — beide Open Source unter Apache 2.0. Zwei kompakte Speech-Modelle, die zeigen, was 2 Milliarden Parameter im Audio-Bereich leisten können.

Was IBM da raushaut

Modell 1:** Granite Speech 4.1 2B — autoregressive ASR mit Übersetzung
Modell 2:** Granite Speech 4.1 2B-NAR — non-autoregressive für schnellere Inference
Lizenz:** Apache 2.0, also frei nutzbar auch kommerziell
Plattform:** Hugging Face, sofort downloadbar

Zahlenbox

2 Mrd.** — Parameter pro Modell
2** — Architekturen für unterschiedliche Use-Cases
0$** — Lizenzkosten dank Apache 2.0

⚖️ Autoregressive vs. Non-Autoregressive

Geschwindigkeit:** NAR-Variante deutlich schneller bei Inference
Genauigkeit:** Klassische autoregressive Variante stärker bei Transkription plus Übersetzung
Edit-Use-Case:** NAR-Modell für nachträgliches Editieren von Transkripten gebaut
Compute:** Beide laufen auf bezahlbarer Hardware — nicht nur im Datacenter

💡 Was das bedeutet

Enterprise-Teams müssen bei ASR meist zwischen Cloud-APIs und teuren Eigen-Setups wählen. IBM liefert eine dritte Option: kompakt, lokal lauffähig, ohne Lizenz-Stolperfallen. Wer Speech-to-Text in seine Pipeline einbauen will, hat jetzt einen ernsten Open-Source-Kandidaten.

✅ Pro

Apache 2.0 — keine Lizenz-Falle
Klein genug für eigene Hardware
Zwei Architekturen für unterschiedliche Anforderungen
Übersetzung gleich mit drin

❌ Con

Kein Top-Lab-Marketing, weniger Community-Hype
Benchmarks im Detail abwarten
2B ist nicht die Liga von Whisper Large

🤖 NERDMAN-URTEIL

IBM macht keinen Lärm, liefert aber Modelle, die in der echten Welt Sinn ergeben — genau das, was Open-Source-Speech braucht.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: MarkTechPost

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

tools ibm wirft zwei speech-modelle hugging face

← ZURÜCK ZU NERDMAN