Gemma 4 transkribiert Audio direkt auf dem Mac
Google hat mit Gemma 4 E2B ein Modell rausgehauen, das Audio auf dem lokalen Rechner transkribiert. Kein Cloud-API, kein Abo — ein einziger Terminal-Befehl reicht.
So funktioniert's
Simon Willison hat das Rezept veröffentlicht. Ein `uv run`-Einzeiler, der Gemma 4 E2B über Apples MLX-Framework lokal ausführt:
- Modell:** Google Gemma 4 E2B-IT
- Größe:** 10,28 GB
- Framework:** MLX + mlx-vlm
- Plattform:** macOS (Apple Silicon)
- Prompt:** Einfach `"Transcribe this audio"` — fertig
Was reingeht und was rauskommt
Willison hat eine 14-Sekunden-WAV-Datei reingeschoben. Das Modell spuckt die Transkription direkt im Terminal aus. Kein Whisper, kein OpenAI-API-Call, kein Cent Kosten nach dem Download.
✅ Pro
- Ein Befehl, keine Installation nötig (dank `uv run`)
- Komplett offline, komplett lokal
- Multimodal — Gemma 4 kann Text, Bild UND Audio
❌ Con
- 10 GB Download für ein Transkriptionsmodell
- Nur macOS mit Apple Silicon
- Qualität im Vergleich zu Whisper Large v3 unklar
Was das bedeutet
Apple-Silicon-Nutzer bekommen ein weiteres Argument, KI-Workloads lokal statt in der Cloud zu fahren. MLX wird zum stillen Ökosystem für Leute, die nicht jeden Prompt an Sam Altmans Server schicken wollen. Und Google positioniert Gemma als das Schweizer Taschenmesser unter den Open-Weight-Modellen — Text, Bild, Audio, alles in einem Paket.