🏆 TOOLS
Tencent macht Echtzeit-Sprach-KI für alle frei
Tencent AI Lab stellt Covo-Audio als Open Source bereit. Ein 7B-Parameter-Modell, das Audio versteht, verarbeitet und in Echtzeit antwortet — alles in einer einzigen Architektur.
Tencent AI Lab stellt Covo-Audio als Open Source bereit. Ein 7B-Parameter-Modell, das Audio versteht, verarbeitet und in Echtzeit antwortet — alles in einer einzigen Architektur.
Was Covo-Audio kann
Das Ding ist ein sogenanntes Large Audio Language Model (LALM). Statt Text rein, Text raus: Hier geht Audio rein, Audio raus. Kein Umweg über Transkription, kein Zusammenstückeln von Einzelteilen.
- Parameter:** 7 Milliarden
- Typ:** End-to-End Audio Language Model
- Lizenz:** Open Source
- Echtzeit:** Ja — gebaut für Live-Gespräche
Die Architektur in vier Teilen
- Audio Encoder:** Basiert auf Whisper-large-v3 — Tencents Wahl für robuste Spracheingabe
- Sprachverarbeitung:** Kontinuierliche Audio-Inputs, keine Chunk-basierte Transkription
- Reasoning:** Das Modell kann nicht nur hören und sprechen, sondern auch schlussfolgern
- Audio Output:** Direkte Sprachausgabe ohne Text-to-Speech-Zwischenschritt
✅ Pro
- Open Source — jeder kann es nutzen und anpassen
- End-to-End statt Pipeline-Gefrickel
- 7B ist klein genug für lokale Nutzung
- Whisper-v3 als Encoder ist bewährt
❌ Con
- Tencent liefert selten langfristigen Community-Support
- 7B kommt nicht an proprietäre Riesen-Modelle ran
- Benchmark-Vergleiche zu GPT-4o Audio fehlen noch
💡 Was das bedeutet
Sprach-KI war bisher fest in der Hand von OpenAI und Google. Tencent schmeißt jetzt ein vollständiges Echtzeit-Audio-Modell auf den Open-Source-Markt — mit Inference-Pipeline inklusive. Für Entwickler, die Sprachassistenten oder Audio-Agents bauen wollen, ist das ein echter Baukasten statt einer Warteliste.
🤖 NERDMAN-URTEIL
Kein Durchbruch, aber ein solides Werkzeug — und Open Source schlägt jede Warteliste.
Quelle: MarkTechPost
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.