Ein Modell, das Bilder erzeugt UND versteht — Google DeepMind hat mit Vision Banana die Mauer zwischen generativen und diskriminativen Vision-Modellen eingerissen.
In New York haben Augenchirurgen Apples Vision Pro im Profi-Einsatz vorgeführt. Das Headset hilft beim Grauer-Star-Eingriff — sogar aus der Ferne.
NASA startet mit Artemis erstmals wieder eine Crew Richtung Mond. Apple liefert dazu ein immersives Erlebnis für die Vision Pro — Raketenstart vom Sofa aus.
Amazon lässt KI-Agenten direkt auf Ihrem virtuellen Desktop arbeiten. Die Bots steuern alte Software ohne API — einfach durch Hinsehen und Klicken.
IBM bringt Granite 4.0 3B Vision — ein multimodales Modell, das Unternehmensdokumente lesen, verstehen und verarbeiten soll. Nur 3 Milliarden Parameter. Klein, aber angeblich mit ...
Forscher haben einen Vision-Monitor gebaut, der aus Bildern erkennt, ob Sicherheitsregeln gebrochen werden. Einmal trainiert, prüft er beliebige Regeln — ohne Nachschulung.
Forscher am MIT haben ein Verfahren entwickelt, das versteckte Vorurteile in KI-Vision-Modellen gezielt rauswirft — ohne dass das Modell jedes Mal neu trainiert werden muss.
Roboflow hat ein neues Open-Source-Modell auf GitHub gedropt — und die Computer-Vision-Community dreht durch. RF-DETR ist ein Transformer-basierter Objektdetektor, der auf dem ...
Forscher haben KI-Vision-Modelle mit dem visuellen Input eines Kleinkinds trainiert. Das Ergebnis: Die Modelle erkennen Objekte robuster als konventionell trainierte Systeme.
Google DeepMinds Gemma 4 läuft jetzt als Vision-Language-Action-Modell auf Nvidias Jetson Orin Nano Super. Ein KI-Modell, das sieht, versteht und handelt — auf einem Board so groß ...
Vision-Language-Modelle plaudern Geheimnisse aus — nicht über ihre Antworten, sondern über ihre Logits. Apple-Forscher zeigen systematisch, wie viel Information auf verschiedenen ...
Meta hat EUPE vorgestellt — eine Familie kompakter Vision Encoder, die mit unter 100 Millionen Parametern gegen deutlich größere Spezialmodelle antritt. Und zwar nicht nur bei ...
Google DeepMind hat Gemma 4 12B vorgestellt. Das Modell ist multimodal — und kommt komplett ohne separaten Encoder.
Apple hat auf der WWDC 2026 die neue Siri vorgestellt — und lizenziert dafür heimlich ein Custom-Modell von Google. Simon Willison ist skeptisch. Zu Recht.
Nvidia stellt neue Physical-AI-Workflows vor. Im Zentrum: Cosmos 3, das Roboter, Autos und Vision-Systeme schlauer machen soll.
Steven Cheng hat genug von Mückenstichen. Sein DIY-Prototyp erkennt die Plagegeister per Deep Learning und schießt sie mit einem Präzisionslaser aus der Luft.
Nvidia hat Alpamayo 2 Super vorgestellt. Das Vision-Language-Action-Modell soll Level-4-Robotaxis endlich aus dem Demo-Stadium prügeln.
Chinas Polizei rüstet alte Überwachungskameras massiv mit Computer Vision und Sprachmodellen auf. Hikvision und Huawei liefern die Technik — und machen Videomaterial per ...
Neue Methode soll endlich zeigen, wie Vision-Language-Modelle Bilder in Worte übersetzen — und warum sie dabei halluzinieren.
Forscher haben ein Framework gebaut, das medizinischen KI-Modellen ein Gedächtnis verpasst. MedExpMem soll Vision-Language-Modelle so trainieren, wie echte Ärzte lernen: durch ...