Suche: multimodale

HOT

NVIDIA packt Dokumente, Audio und Video in ein Modell

NVIDIA bringt Nemotron 3 Nano Omni. Ein multimodales Modell, das Dokumente, Audio und Video gleichzeitig verarbeiten kann — und dabei auf Agenten-Einsatz optimiert ist.

Hugging Face Blog · 2026-04-28 16:15:39.721808+00:00 · Score 8/10

HOT

Google wirft Encoder raus — Gemma 4 kommt

Google DeepMind hat Gemma 4 12B vorgestellt. Das Modell ist multimodal — und kommt komplett ohne separaten Encoder.

Google DeepMind · 2026-06-09 16:20:19.383554+00:00 · Score 7/10

AGENTS

Meta wirft Muse Spark ins Agent-Rennen

Metas Superintelligence Lab hat geliefert. „Muse Spark" heißt das erste Modell der Muse-Familie — multimodal, mit Tool-Nutzung und Multi-Agent-Orchestrierung ab Werk.

MarkTechPost · 2026-04-10 16:21:05.663468+00:00 · Score 7/10

HOT

Google packt Frontier-KI aufs Smartphone

Gemma 4 ist da. Googles neues Open-Weight-Modell verspricht multimodale Frontier-Intelligenz — und das direkt auf dem Gerät, ohne Cloud.

Hugging Face Blog · 2026-04-03 10:18:51.179586+00:00 · Score 8/10

HOT

Google bringt Gemma 4 auf dein Handy

Google droppt Gemma 4 — und diesmal wird's multimodal. Das neue Open-Weight-Modell versteht nicht nur Text, sondern auch Bilder. Und das Beste: Es läuft direkt auf dem Gerät.

Hugging Face Blog · 2026-04-02 19:23:50.051272+00:00 · Score 8/10

HOT

Google bringt multimodale KI auf den Laptop

Google DeepMind hat Gemma 4 12B veröffentlicht. Das Open-Source-Modell verarbeitet Text, Bild und Audio nativ — und läuft auf jedem halbwegs modernen Laptop.

The Decoder · 2026-06-03 22:18:36.607328+00:00 · Score 8/10

TOOLS

Nvidia baut jetzt auch Mini-Gehirne für Agenten

Nvidia will nicht mehr nur Chips verkaufen. Mit Nemotron 3 Nano Omni bringt der GPU-Gigant ein kompaktes Multimodal-Modell, das Enterprise-Agents antreiben soll — direkt on-device.

AI Business · 2026-04-28 22:20:05.247978+00:00 · Score 6/10

EXPERIMENTAL

Forscher schrumpfen KI-Modelle auf Turbo-Modus

Ein neues Paper aus der Forschung zeigt, wie man multimodale Foundation Models schneller und schlanker machen will. Kein Produkt, kein Demo — aber die Idee hat es in sich.

arXiv AI/ML/NLP · 2026-04-27 04:19:30.262130+00:00 · Score 2/10

HOT

Google feuert Gemma 4 raus — Apache 2.0

Google hat Gemma 4 veröffentlicht. Vier Modellgrößen, Open Weights, multimodal — und komplett unter Apache 2.0.

InfoQ AI/ML · 2026-04-16 19:21:38.714901+00:00 · Score 8/10

TOOLS

GLM-5V-Turbo macht aus Screenshots fertigen Code

Zhipu AI aus China bringt ein multimodales Modell, das Bilder von UI-Designs nimmt und daraus lauffähigen Code schreibt. Klingt nach Entwickler-Traum — oder Entwickler-Albtraum.

The Decoder · 2026-04-03 13:18:21.021544+00:00 · Score 7/10

EXPERIMENTAL

Stanford baut Weltmodelle, die denken können

Chris Manning gehört zu den einflussreichsten KI-Forschern der Welt. Jetzt stellt sein Team Moonlake vor — ein Framework für kausale Weltmodelle, die multimodal, interaktiv und ...

Latent Space · 2026-04-02 19:19:08.915407+00:00 · Score 5/10

HOT

Alibaba greift Gemini mit Omni-Modell an

Qwen liefert. Alibabas KI-Team hat Qwen3.5-Omni veröffentlicht — ein natives Multimodal-Modell, das Text, Bilder, Audio und Video in einer einzigen Architektur verarbeitet. Kein ...

MarkTechPost · 2026-03-31 07:16:13.618930+00:00 · Score 8/10

HOT

Meta droppt Llama 4 — Together AI liefert sofort

Meta hat Llama 4 veröffentlicht. Die neue Modellgeneration setzt auf Mixture-of-Experts (MoE) und ist multimodal. Together AI bietet die Modelle ab sofort zum Einsatz an.

Together AI Blog · 2026-03-23 15:21:16.129699+00:00 · Score 7/10

TOOLS

Together knackt 1 Million Token im Kontext

Together AI hat MiniMax-M3 in Produktion gebracht — mit einem Inferenz-Stack, der 1M-Token-Kontext nicht nur möglich, sondern bezahlbar macht. Der Blogpost liest sich wie ein ...

Together AI Blog · 2026-06-02 22:19:00.929269+00:00 · Score 6/10

HOT

Google baut Video-Generator per Chatbefehl

Google legt nach. Mit Gemini Omni kommt ein multimodales Modell, das aus Text, Bildern und Audio direkt Videos baut — per Konversation.

TechCrunch AI · 2026-05-19 19:22:53.909631+00:00 · Score 9/10

EXPERIMENTAL

Apple lehrt KI bessere Bildbeschreibungen

Apple ML Research veröffentlicht ein neues Framework namens BalCapRL. Es soll Bildunterschriften von Multimodal-LLMs ausgewogener machen.

Apple ML Research · 2026-05-12 01:21:03.843305+00:00 · Score 3/10

HOT

Deepmind schickt KI-Arzt per Video zum Patienten

Google Deepmind baut einen "AI co-clinician", der Ärzte bei der Diagnose unterstützt — inklusive Videountersuchung des Patienten. In Simulationen liefert das System gute ...

The Decoder · 2026-05-01 10:15:19.566323+00:00 · Score 7/10

HOT

Nvidia zeigt, woher KI-Training wirklich kommt

Nvidia hat Nemotron 3 Nano Omni veröffentlicht — ein offenes multimodales Modell, das Text, Bild, Video und Audio verarbeitet. Der eigentliche Knaller steckt aber nicht im Modell ...

The Decoder · 2026-04-29 10:15:22.919227+00:00 · Score 7/10

EXPERIMENTAL

GPT-Image-2 macht Lego-Dates und keiner lacht

OpenAIs Bildgenerator GPT-Image-2 wird gerade zum Liebling der Kreativ-Szene. Während alle anderen Labs auf Coding und Enterprise schielen, zeigt das Modell, was passiert, wenn ...

Latent Space · 2026-04-28 07:19:36.799313+00:00 · Score 5/10

EXPERIMENTAL

Kleine KI moderiert Content besser als große

Ein Forscherteam zeigt: Für Content Moderation braucht man keine teuren Mega-Modelle. Ein kleines Sprachmodell mit externen Tools schlägt die Großen — bei einem Bruchteil der ...

arXiv AI/ML/NLP · 2026-04-09 07:19:54.566198+00:00 · Score 2/10

SUCHE

NVIDIA packt Dokumente, Audio und Video in ein Modell

Google wirft Encoder raus — Gemma 4 kommt

Meta wirft Muse Spark ins Agent-Rennen

Google packt Frontier-KI aufs Smartphone

Google bringt Gemma 4 auf dein Handy

Google bringt multimodale KI auf den Laptop

Nvidia baut jetzt auch Mini-Gehirne für Agenten

Forscher schrumpfen KI-Modelle auf Turbo-Modus

Google feuert Gemma 4 raus — Apache 2.0

GLM-5V-Turbo macht aus Screenshots fertigen Code

Stanford baut Weltmodelle, die denken können

Alibaba greift Gemini mit Omni-Modell an

Meta droppt Llama 4 — Together AI liefert sofort

Together knackt 1 Million Token im Kontext

Google baut Video-Generator per Chatbefehl

Apple lehrt KI bessere Bildbeschreibungen

Deepmind schickt KI-Arzt per Video zum Patienten

Nvidia zeigt, woher KI-Training wirklich kommt

GPT-Image-2 macht Lego-Dates und keiner lacht

Kleine KI moderiert Content besser als große