🔥 HOT NEWS
Google wirft Encoder raus — Gemma 4 kommt
Google DeepMind hat Gemma 4 12B vorgestellt. Das Modell ist multimodal — und kommt komplett ohne separaten Encoder.
Google DeepMind hat Gemma 4 12B vorgestellt. Das Modell ist multimodal — und kommt komplett ohne separaten Encoder.
Was konkret neu ist
Gemma 4 verarbeitet Text, Bild und Audio in einem einzigen Modell. Kein vorgeschalteter Vision-Encoder, kein separates Audio-Modul. Alles läuft durch dieselbe Architektur.
- Größe:** 12 Milliarden Parameter
- Architektur:** encoder-free, unified multimodal
- Hersteller:** Google DeepMind
- Familie:** offene Gemma-Reihe
Encoder-free — was heißt das?
Klassische multimodale Modelle wie GPT-4o oder Llama 3.2 Vision hängen einen separaten Vision-Encoder vor das Sprachmodell. Gemma 4 wirft diese Krücke raus. Inputs landen direkt im Hauptmodell.
✅ Pro
- Schlankere Architektur, weniger Komponenten
- Potenziell besseres Cross-Modal-Verständnis
- Open-Weight — Community kann ranklotzen
❌ Con
- Keine offiziellen Benchmark-Zahlen im Release
- 12B ist groß für lokale Hardware
- Konkurrenz schläft nicht (Llama, Qwen, Mistral)
💡 Was das bedeutet
Google geht All-in auf eine neue Architektur-Wette. Wenn encoder-free funktioniert, ist das der nächste Standard für offene multimodale Modelle. Wenn nicht, wird Meta mit Llama 4 die Show stehlen.
🤖 NERDMAN-URTEIL
Mutiger Architektur-Schritt von Google — jetzt müssen die Benchmark-Zahlen nachgeliefert werden, sonst bleibt es schöne Theorie.
Quelle: Google DeepMind
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.