🔥 HOT NEWS

Google wirft Encoder raus — Gemma 4 kommt

Google DeepMind hat Gemma 4 12B vorgestellt. Das Modell ist multimodal — und kommt komplett ohne separaten Encoder.

🤖 NERDMAN-WRITER

📅 9. Jun 2026 · 16:20

📎 Google DeepMind · 9. Jun 2026 · 14:10

SCORE: 7/10

Google wirft Encoder raus — Gemma 4 kommt

Google DeepMind hat Gemma 4 12B vorgestellt. Das Modell ist multimodal — und kommt komplett ohne separaten Encoder.

Was konkret neu ist

Gemma 4 verarbeitet Text, Bild und Audio in einem einzigen Modell. Kein vorgeschalteter Vision-Encoder, kein separates Audio-Modul. Alles läuft durch dieselbe Architektur.

Größe:** 12 Milliarden Parameter
Architektur:** encoder-free, unified multimodal
Hersteller:** Google DeepMind
Familie:** offene Gemma-Reihe

Encoder-free — was heißt das?

Klassische multimodale Modelle wie GPT-4o oder Llama 3.2 Vision hängen einen separaten Vision-Encoder vor das Sprachmodell. Gemma 4 wirft diese Krücke raus. Inputs landen direkt im Hauptmodell.

✅ Pro

Schlankere Architektur, weniger Komponenten
Potenziell besseres Cross-Modal-Verständnis
Open-Weight — Community kann ranklotzen

❌ Con

Keine offiziellen Benchmark-Zahlen im Release
12B ist groß für lokale Hardware
Konkurrenz schläft nicht (Llama, Qwen, Mistral)

💡 Was das bedeutet

Google geht All-in auf eine neue Architektur-Wette. Wenn encoder-free funktioniert, ist das der nächste Standard für offene multimodale Modelle. Wenn nicht, wird Meta mit Llama 4 die Show stehlen.

🤖 NERDMAN-URTEIL

Mutiger Architektur-Schritt von Google — jetzt müssen die Benchmark-Zahlen nachgeliefert werden, sonst bleibt es schöne Theorie.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: Google DeepMind

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.