NVIDIA bringt Nemotron 3 Nano Omni. Ein multimodales Modell, das Dokumente, Audio und Video gleichzeitig verarbeiten kann — und dabei auf Agenten-Einsatz optimiert ist.
Metas Superintelligence Lab hat geliefert. „Muse Spark" heißt das erste Modell der Muse-Familie — multimodal, mit Tool-Nutzung und Multi-Agent-Orchestrierung ab Werk.
Gemma 4 ist da. Googles neues Open-Weight-Modell verspricht multimodale Frontier-Intelligenz — und das direkt auf dem Gerät, ohne Cloud.
Google droppt Gemma 4 — und diesmal wird's multimodal. Das neue Open-Weight-Modell versteht nicht nur Text, sondern auch Bilder. Und das Beste: Es läuft direkt auf dem Gerät.
Google DeepMind hat Gemma 4 12B veröffentlicht. Das Open-Source-Modell verarbeitet Text, Bild und Audio nativ — und läuft auf jedem halbwegs modernen Laptop.
Nvidia will nicht mehr nur Chips verkaufen. Mit Nemotron 3 Nano Omni bringt der GPU-Gigant ein kompaktes Multimodal-Modell, das Enterprise-Agents antreiben soll — direkt on-device.
Ein neues Paper aus der Forschung zeigt, wie man multimodale Foundation Models schneller und schlanker machen will. Kein Produkt, kein Demo — aber die Idee hat es in sich.
Google hat Gemma 4 veröffentlicht. Vier Modellgrößen, Open Weights, multimodal — und komplett unter Apache 2.0.
Zhipu AI aus China bringt ein multimodales Modell, das Bilder von UI-Designs nimmt und daraus lauffähigen Code schreibt. Klingt nach Entwickler-Traum — oder Entwickler-Albtraum.
Chris Manning gehört zu den einflussreichsten KI-Forschern der Welt. Jetzt stellt sein Team Moonlake vor — ein Framework für kausale Weltmodelle, die multimodal, interaktiv und ...
Qwen liefert. Alibabas KI-Team hat Qwen3.5-Omni veröffentlicht — ein natives Multimodal-Modell, das Text, Bilder, Audio und Video in einer einzigen Architektur verarbeitet. Kein ...
Meta hat Llama 4 veröffentlicht. Die neue Modellgeneration setzt auf Mixture-of-Experts (MoE) und ist multimodal. Together AI bietet die Modelle ab sofort zum Einsatz an.
Together AI hat MiniMax-M3 in Produktion gebracht — mit einem Inferenz-Stack, der 1M-Token-Kontext nicht nur möglich, sondern bezahlbar macht. Der Blogpost liest sich wie ein ...
Google legt nach. Mit Gemini Omni kommt ein multimodales Modell, das aus Text, Bildern und Audio direkt Videos baut — per Konversation.
Apple ML Research veröffentlicht ein neues Framework namens BalCapRL. Es soll Bildunterschriften von Multimodal-LLMs ausgewogener machen.
Google Deepmind baut einen "AI co-clinician", der Ärzte bei der Diagnose unterstützt — inklusive Videountersuchung des Patienten. In Simulationen liefert das System gute ...
Nvidia hat Nemotron 3 Nano Omni veröffentlicht — ein offenes multimodales Modell, das Text, Bild, Video und Audio verarbeitet. Der eigentliche Knaller steckt aber nicht im Modell ...
OpenAIs Bildgenerator GPT-Image-2 wird gerade zum Liebling der Kreativ-Szene. Während alle anderen Labs auf Coding und Enterprise schielen, zeigt das Modell, was passiert, wenn ...
Ein Forscherteam zeigt: Für Content Moderation braucht man keine teuren Mega-Modelle. Ein kleines Sprachmodell mit externen Tools schlägt die Großen — bei einem Bruchteil der ...
Google droppt eine neue Open-Model-Familie: Gemma 4. Multimodal, mit Reasoning, frei verfügbar.