Suche: Encoder

HOT

Google wirft Encoder raus — Gemma 4 kommt

Google DeepMind hat Gemma 4 12B vorgestellt. Das Modell ist multimodal — und kommt komplett ohne separaten Encoder.

Google DeepMind · 2026-06-09 16:20:19.383554+00:00 · Score 7/10

HOT

Google killt den Encoder — Gemma 4 läuft auf Laptop

Google DeepMind hat Gemma 4 12B veröffentlicht. Das Ding frisst Text, Bilder, Audio und Video — ohne separate Encoder. Und es läuft auf deinem Laptop.

MarkTechPost · 2026-06-03 19:19:41.515341+00:00 · Score 7/10

EXPERIMENTAL

NorBERTo schluckt 331 Milliarden Tokens

Forscher haben einen neuen Encoder für brasilianisches Portugiesisch gebaut. Er heißt NorBERTo und basiert auf der ModernBERT-Architektur.

arXiv AI/ML/NLP · 2026-05-04 07:20:30.746849+00:00 · Score 2/10

TOOLS

Meta packt KI-Augen unter 100 Millionen Parameter

Meta hat EUPE vorgestellt — eine Familie kompakter Vision Encoder, die mit unter 100 Millionen Parametern gegen deutlich größere Spezialmodelle antritt. Und zwar nicht nur bei ...

MarkTechPost · 2026-04-07 07:16:50.435753+00:00 · Score 6/10

EXPERIMENTAL

Meta baut einen KI-Zwilling deines Gehirns

Meta FAIR hat den TRImodal Brain Encoder in Version 2 veröffentlicht. Das Ding soll vorhersagen, wie menschliche Neuronen auf Reize reagieren — ein digitaler Doppelgänger für dein ...

Heise KI · 2026-03-26 14:23:11.236517+00:00 · Score 4/10

EXPERIMENTAL

Apple baut KI-Köpfe aus 3D-Pixelwolken

Apple ML Research hat eine neue Methode vorgestellt: HeadsUp rekonstruiert hochauflösende 3D-Köpfe aus Multi-Kamera-Aufnahmen — feed-forward, ohne aufwendiges Pro-Person-Training.

Apple ML Research · 2026-05-09 01:20:36.922908+00:00 · Score 3/10

EXPERIMENTAL

Optimizer lernt sich selbst zu optimieren

Ein neues Paper auf arXiv schlägt einen Optimizer vor, der seine eigenen Hyperparameter regelt. Der Name: MetaAdamW.

arXiv AI/ML/NLP · 2026-05-07 04:21:20.015135+00:00 · Score 2/10

EXPERIMENTAL

NVIDIA bringt KI das Hören bei

Audio war immer das Stiefkind der multimodalen KI. Bilder verstehen? Kein Problem. Aber Sprache, Musik und Umgebungsgeräusche gleichzeitig verarbeiten? Daran scheitern die meisten ...

MarkTechPost · 2026-04-15 04:19:59.472948+00:00 · Score 6/10

TOOLS

GLM-OCR macht Dokumenten-Erkennung endlich schlau

China liefert ein neues Open-Source-OCR-Modell. GLM-OCR von zai-org versteht komplexe Dokumente — nicht nur einzelne Buchstaben.

GitHub Trending Python · 2026-04-03 10:25:36.481406+00:00 · Score 6/10

HOT

Alibaba wirft Qwen3.5-Omni gegen Gemini ins Rennen

Alibaba hat nachgelegt. Das Qwen-Team veröffentlicht Qwen3.5-Omni — ein Modell, das Text, Bild, Audio und Video nativ verarbeitet. Kein Zusammenkleben einzelner Module mehr, ...

MarkTechPost · 2026-03-31 07:19:09.874856+00:00 · Score 7/10

TOOLS

Tencent macht Echtzeit-Sprach-KI für alle frei

Tencent AI Lab stellt Covo-Audio als Open Source bereit. Ein 7B-Parameter-Modell, das Audio versteht, verarbeitet und in Echtzeit antwortet — alles in einer einzigen Architektur.

MarkTechPost · 2026-03-26 11:18:22.116324+00:00 · Score 6/10

EXPERIMENTAL

PoQ-Judge bewertet KI-Antworten ohne Referenz

Forscher haben ein Framework gebaut, das die Qualität von KI-Antworten in dezentralen Netzwerken bewertet — ganz ohne Vergleichsdaten. Klingt trocken, könnte aber für ...

arXiv AI/ML/NLP · 2026-06-11 07:19:28.946850+00:00 · Score 2/10

EXPERIMENTAL

Forscher zerlegt Qwen-Hirn beim Rechnen

Ein LessWrong-Autor nutzt Anthropics neue NLA-Technik, um Qwen 2.5 7B beim Multiplizieren zuzusehen. Das Ergebnis: ein Blick direkt in die Gedanken eines Sprachmodells.

LessWrong · 2026-05-16 22:18:38.543257+00:00 · Score 4/10

EXPERIMENTAL

LoRA vergisst, was Menschen nicht einig sind

Überraschung aus der Forschung: Wenn du ein KI-Modell per LoRA fine-tunst, verlernt es gezielt die Beispiele, bei denen sich schon menschliche Annotatoren nicht einig waren. Kein ...

arXiv AI/ML/NLP · 2026-04-21 07:19:12.641154+00:00 · Score 2/10

EXPERIMENTAL

GRASP plant 50 Schritte voraus — ohne zu halluzinieren

Berkeley hat einen neuen Planungsalgorithmus für World Models vorgestellt. GRASP löst das Problem, das bisher jeden Gradienten-Planer bei längeren Horizonten zerstört hat: ...

BAIR Blog (Berkeley) · 2026-04-20 22:19:30.245358+00:00 · Score 8/10

HOT

Alibaba greift Gemini mit Omni-Modell an

Qwen liefert. Alibabas KI-Team hat Qwen3.5-Omni veröffentlicht — ein natives Multimodal-Modell, das Text, Bilder, Audio und Video in einer einzigen Architektur verarbeitet. Kein ...

MarkTechPost · 2026-03-31 07:16:13.618930+00:00 · Score 8/10

TOOLS

Cohere baut jetzt auch Sprache zu Text um

Cohere kennt man für Text-Modelle und Embeddings. Jetzt steigt das Unternehmen mit "Cohere Transcribe" in den Markt für automatische Spracherkennung ein.

MarkTechPost · 2026-03-26 17:21:29.866616+00:00 · Score 6/10

SUCHE

Google wirft Encoder raus — Gemma 4 kommt

Google killt den Encoder — Gemma 4 läuft auf Laptop

NorBERTo schluckt 331 Milliarden Tokens

Meta packt KI-Augen unter 100 Millionen Parameter

Meta baut einen KI-Zwilling deines Gehirns

Apple baut KI-Köpfe aus 3D-Pixelwolken

Optimizer lernt sich selbst zu optimieren

NVIDIA bringt KI das Hören bei

GLM-OCR macht Dokumenten-Erkennung endlich schlau

Alibaba wirft Qwen3.5-Omni gegen Gemini ins Rennen

Tencent macht Echtzeit-Sprach-KI für alle frei

PoQ-Judge bewertet KI-Antworten ohne Referenz

Forscher zerlegt Qwen-Hirn beim Rechnen

LoRA vergisst, was Menschen nicht einig sind

GRASP plant 50 Schritte voraus — ohne zu halluzinieren

Alibaba greift Gemini mit Omni-Modell an

Cohere baut jetzt auch Sprache zu Text um