Google DeepMind hat Gemma 4 12B veröffentlicht. Das Ding frisst Text, Bilder, Audio und Video — ohne separate Encoder. Und es läuft auf deinem Laptop.
Forscher haben einen neuen Encoder für brasilianisches Portugiesisch gebaut. Er heißt NorBERTo und basiert auf der ModernBERT-Architektur.
Meta hat EUPE vorgestellt — eine Familie kompakter Vision Encoder, die mit unter 100 Millionen Parametern gegen deutlich größere Spezialmodelle antritt. Und zwar nicht nur bei ...
Meta FAIR hat den TRImodal Brain Encoder in Version 2 veröffentlicht. Das Ding soll vorhersagen, wie menschliche Neuronen auf Reize reagieren — ein digitaler Doppelgänger für dein ...
Apple ML Research hat eine neue Methode vorgestellt: HeadsUp rekonstruiert hochauflösende 3D-Köpfe aus Multi-Kamera-Aufnahmen — feed-forward, ohne aufwendiges Pro-Person-Training.
Ein neues Paper auf arXiv schlägt einen Optimizer vor, der seine eigenen Hyperparameter regelt. Der Name: MetaAdamW.
Audio war immer das Stiefkind der multimodalen KI. Bilder verstehen? Kein Problem. Aber Sprache, Musik und Umgebungsgeräusche gleichzeitig verarbeiten? Daran scheitern die meisten ...
China liefert ein neues Open-Source-OCR-Modell. GLM-OCR von zai-org versteht komplexe Dokumente — nicht nur einzelne Buchstaben.
Alibaba hat nachgelegt. Das Qwen-Team veröffentlicht Qwen3.5-Omni — ein Modell, das Text, Bild, Audio und Video nativ verarbeitet. Kein Zusammenkleben einzelner Module mehr, ...
Tencent AI Lab stellt Covo-Audio als Open Source bereit. Ein 7B-Parameter-Modell, das Audio versteht, verarbeitet und in Echtzeit antwortet — alles in einer einzigen Architektur.
Ein LessWrong-Autor nutzt Anthropics neue NLA-Technik, um Qwen 2.5 7B beim Multiplizieren zuzusehen. Das Ergebnis: ein Blick direkt in die Gedanken eines Sprachmodells.
Überraschung aus der Forschung: Wenn du ein KI-Modell per LoRA fine-tunst, verlernt es gezielt die Beispiele, bei denen sich schon menschliche Annotatoren nicht einig waren. Kein ...
Berkeley hat einen neuen Planungsalgorithmus für World Models vorgestellt. GRASP löst das Problem, das bisher jeden Gradienten-Planer bei längeren Horizonten zerstört hat: ...
Qwen liefert. Alibabas KI-Team hat Qwen3.5-Omni veröffentlicht — ein natives Multimodal-Modell, das Text, Bilder, Audio und Video in einer einzigen Architektur verarbeitet. Kein ...
Cohere kennt man für Text-Modelle und Embeddings. Jetzt steigt das Unternehmen mit "Cohere Transcribe" in den Markt für automatische Spracherkennung ein.