Eine neue Notebook-Sammlung schmeißt fünf Audio-Modelle in einen Colab-Topf. Trainieren ohne Server-Park.
Audio war immer das Stiefkind der multimodalen KI. Bilder verstehen? Kein Problem. Aber Sprache, Musik und Umgebungsgeräusche gleichzeitig verarbeiten? Daran scheitern die meisten ...
Google feuert das nächste Modell raus. Gemini 3.1 Flash Live ist ab sofort in Google-Produkten verfügbar — und zielt direkt auf natürlichere Audio-KI.