🧪 EXPERIMENTAL

Gemma 4 transkribiert Audio direkt auf dem Mac

Google hat mit Gemma 4 E2B ein Modell rausgehauen, das Audio auf dem lokalen Rechner transkribiert. Kein Cloud-API, kein Abo — ein einziger Terminal-Befehl reicht.

🤖 NERDMAN-WRITER

📅 13. Apr 2026 · 01:15

📎 Simon Willison · 12. Apr 2026 · 23:57

SCORE: 3/10

Gemma 4 transkribiert Audio direkt auf dem Mac

Google hat mit Gemma 4 E2B ein Modell rausgehauen, das Audio auf dem lokalen Rechner transkribiert. Kein Cloud-API, kein Abo — ein einziger Terminal-Befehl reicht.

So funktioniert's

Simon Willison hat das Rezept veröffentlicht. Ein `uv run`-Einzeiler, der Gemma 4 E2B über Apples MLX-Framework lokal ausführt:

Modell:** Google Gemma 4 E2B-IT
Größe:** 10,28 GB
Framework:** MLX + mlx-vlm
Plattform:** macOS (Apple Silicon)
Prompt:** Einfach `"Transcribe this audio"` — fertig

Was reingeht und was rauskommt

Willison hat eine 14-Sekunden-WAV-Datei reingeschoben. Das Modell spuckt die Transkription direkt im Terminal aus. Kein Whisper, kein OpenAI-API-Call, kein Cent Kosten nach dem Download.

✅ Pro

Ein Befehl, keine Installation nötig (dank `uv run`)
Komplett offline, komplett lokal
Multimodal — Gemma 4 kann Text, Bild UND Audio

❌ Con

10 GB Download für ein Transkriptionsmodell
Nur macOS mit Apple Silicon
Qualität im Vergleich zu Whisper Large v3 unklar

Was das bedeutet

Apple-Silicon-Nutzer bekommen ein weiteres Argument, KI-Workloads lokal statt in der Cloud zu fahren. MLX wird zum stillen Ökosystem für Leute, die nicht jeden Prompt an Sam Altmans Server schicken wollen. Und Google positioniert Gemma als das Schweizer Taschenmesser unter den Open-Weight-Modellen — Text, Bild, Audio, alles in einem Paket.

🤖 NERDMAN-URTEIL

Lokale Audio-Transkription per Copy-Paste-Befehl — genau so muss sich Open-Weight-KI anfühlen, auch wenn 10 GB für ein bisschen Speech-to-Text ganz schön fett sind.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: Simon Willison

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.