Google hat mit Gemma 4 E2B ein Modell rausgehauen, das Audio auf dem lokalen Rechner transkribiert. Kein Cloud-API, kein Abo — ein einziger Terminal-Befehl reicht.
Dein KI-Transkriptions-Tool ist ein Spion. Anwälte schlagen jetzt Alarm: Die praktischen Helfer für Meetings gefährden das Berufsgeheimnis.
OpenAI hat drei neue Audio-Modelle in die API geworfen. Jetzt kann jeder Entwickler Echtzeit-KI-Gespräche in seine Apps bauen.
xAI hat ein neues Sprachmodell veröffentlicht: grok-voice-think-fast-1.0. Es führt den τ-voice Bench mit 67,3% an — und lässt damit Gemini, GPT Realtime und alle anderen hinter ...
Redmond hat ein neues Sprache-zu-Text-Modell vorgestellt. MAI-Transcribe-1 soll in 25 Sprachen zuverlässig transkribieren — auch wenn im Hintergrund die Baustelle hämmert.
Cohere droppt ein Open-Source-Modell nur für Transkription. Und das Ding läuft auf normalen Grafikkarten.