Suche: Vision

HOT

Google zwingt Bildgeneratoren zum Sehen

Ein Modell, das Bilder erzeugt UND versteht — Google DeepMind hat mit Vision Banana die Mauer zwischen generativen und diskriminativen Vision-Modellen eingerissen.

MarkTechPost · 2026-04-25 10:17:58.016841+00:00 · Score 8/10

EXPERIMENTAL

Vision Pro operiert jetzt am Auge mit

In New York haben Augenchirurgen Apples Vision Pro im Profi-Einsatz vorgeführt. Das Headset hilft beim Grauer-Star-Eingriff — sogar aus der Ferne.

Heise KI · 2026-05-08 13:22:30.204441+00:00 · Score 3/10

EXPERIMENTAL

Apple schickt Vision-Pro-Nutzer zum Mond

NASA startet mit Artemis erstmals wieder eine Crew Richtung Mond. Apple liefert dazu ein immersives Erlebnis für die Vision Pro — Raketenstart vom Sofa aus.

Heise KI · 2026-04-02 10:19:08.644962+00:00 · Score 2/10

AGENTS

KI-Agenten übernehmen jetzt Ihre alten Windows-Programme

Amazon lässt KI-Agenten direkt auf Ihrem virtuellen Desktop arbeiten. Die Bots steuern alte Software ohne API — einfach durch Hinsehen und Klicken.

InfoQ AI/ML · 2026-05-14 04:21:03.596336+00:00 · Score 7/10

TOOLS

IBM wirft 3B-Vision-Modell für Dokumente raus

IBM bringt Granite 4.0 3B Vision — ein multimodales Modell, das Unternehmensdokumente lesen, verstehen und verarbeiten soll. Nur 3 Milliarden Parameter. Klein, aber angeblich mit ...

Hugging Face Blog · 2026-03-31 16:18:22.070477+00:00 · Score 6/10

EXPERIMENTAL

Kamera-KI weiß jetzt, wann's brenzlig wird

Forscher haben einen Vision-Monitor gebaut, der aus Bildern erkennt, ob Sicherheitsregeln gebrochen werden. Einmal trainiert, prüft er beliebige Regeln — ohne Nachschulung.

arXiv AI/ML/NLP · 2026-05-15 04:33:54.138276+00:00 · Score 2/10

EXPERIMENTAL

MIT killt KI-Bias mit neuem Trick

Forscher am MIT haben ein Verfahren entwickelt, das versteckte Vorurteile in KI-Vision-Modellen gezielt rauswirft — ohne dass das Modell jedes Mal neu trainiert werden muss.

MIT AI News · 2026-04-29 22:15:37.311733+00:00 · Score 2/10

EXPERIMENTAL

Roboflow knackt Echtzeit-Objekterkennung mit RF-DETR

Roboflow hat ein neues Open-Source-Modell auf GitHub gedropt — und die Computer-Vision-Community dreht durch. RF-DETR ist ein Transformer-basierter Objektdetektor, der auf dem ...

GitHub Trending Python · 2026-04-26 04:15:55.415269+00:00 · Score 4/10

EXPERIMENTAL

KI lernt Sehen wie ein Baby — und wird besser

Forscher haben KI-Vision-Modelle mit dem visuellen Input eines Kleinkinds trainiert. Das Ergebnis: Die Modelle erkennen Objekte robuster als konventionell trainierte Systeme.

Nature Mach Intel · 2026-04-24 22:23:17.129472+00:00 · Score 4/10

EXPERIMENTAL

Gemma 4 VLA steuert Roboter auf Mini-Hardware

Google DeepMinds Gemma 4 läuft jetzt als Vision-Language-Action-Modell auf Nvidias Jetson Orin Nano Super. Ein KI-Modell, das sieht, versteht und handelt — auf einem Board so groß ...

Hugging Face Blog · 2026-04-22 16:18:26.737335+00:00 · Score 6/10

EXPERIMENTAL

Apples Logits verraten mehr als erlaubt

Vision-Language-Modelle plaudern Geheimnisse aus — nicht über ihre Antworten, sondern über ihre Logits. Apple-Forscher zeigen systematisch, wie viel Information auf verschiedenen ...

Apple ML Research · 2026-04-21 01:16:51.070431+00:00 · Score 3/10

TOOLS

Meta packt KI-Augen unter 100 Millionen Parameter

Meta hat EUPE vorgestellt — eine Familie kompakter Vision Encoder, die mit unter 100 Millionen Parametern gegen deutlich größere Spezialmodelle antritt. Und zwar nicht nur bei ...

MarkTechPost · 2026-04-07 07:16:50.435753+00:00 · Score 6/10

HOT

Google wirft Encoder raus — Gemma 4 kommt

Google DeepMind hat Gemma 4 12B vorgestellt. Das Modell ist multimodal — und kommt komplett ohne separaten Encoder.

Google DeepMind · 2026-06-09 16:20:19.383554+00:00 · Score 7/10

HOT

Apple klaut Gemini für neue Siri

Apple hat auf der WWDC 2026 die neue Siri vorgestellt — und lizenziert dafür heimlich ein Custom-Modell von Google. Simon Willison ist skeptisch. Zu Recht.

Simon Willison · 2026-06-09 01:19:05.526392+00:00 · Score 7/10

AGENTS

Nvidia baut die Roboter-Fabrik

Nvidia stellt neue Physical-AI-Workflows vor. Im Zentrum: Cosmos 3, das Roboter, Autos und Vision-Systeme schlauer machen soll.

AI Business · 2026-06-04 19:19:35.195118+00:00 · Score 6/10

EXPERIMENTAL

Ingenieur baut Laser-Killer gegen Mücken

Steven Cheng hat genug von Mückenstichen. Sein DIY-Prototyp erkennt die Plagegeister per Deep Learning und schießt sie mit einem Präzisionslaser aus der Luft.

IT-Daily · 2026-06-04 07:19:55.964491+00:00 · Score 2/10

HOT

Nvidia knallt 32-Milliarden-Modell für Robotaxis raus

Nvidia hat Alpamayo 2 Super vorgestellt. Das Vision-Language-Action-Modell soll Level-4-Robotaxis endlich aus dem Demo-Stadium prügeln.

Tech Monitor · 2026-06-01 10:19:51.647183+00:00 · Score 7/10

KI-CRIME

China macht Millionen Kameras zu KI-Spitzeln

Chinas Polizei rüstet alte Überwachungskameras massiv mit Computer Vision und Sprachmodellen auf. Hikvision und Huawei liefern die Technik — und machen Videomaterial per ...

The Decoder · 2026-05-27 10:18:21.749383+00:00 · Score 6/10

EXPERIMENTAL

Forscher röntgen KI-Augen mit Transcoders

Neue Methode soll endlich zeigen, wie Vision-Language-Modelle Bilder in Worte übersetzen — und warum sie dabei halluzinieren.

arXiv AI/ML/NLP · 2026-05-25 16:19:01.111196+00:00 · Score 2/10

EXPERIMENTAL

KI lernt Diagnostik wie echte Ärzte

Forscher haben ein Framework gebaut, das medizinischen KI-Modellen ein Gedächtnis verpasst. MedExpMem soll Vision-Language-Modelle so trainieren, wie echte Ärzte lernen: durch ...

arXiv AI/ML/NLP · 2026-05-25 10:21:04.325880+00:00 · Score 2/10

SUCHE

Google zwingt Bildgeneratoren zum Sehen

Vision Pro operiert jetzt am Auge mit

Apple schickt Vision-Pro-Nutzer zum Mond

KI-Agenten übernehmen jetzt Ihre alten Windows-Programme

IBM wirft 3B-Vision-Modell für Dokumente raus

Kamera-KI weiß jetzt, wann's brenzlig wird

MIT killt KI-Bias mit neuem Trick

Roboflow knackt Echtzeit-Objekterkennung mit RF-DETR

KI lernt Sehen wie ein Baby — und wird besser

Gemma 4 VLA steuert Roboter auf Mini-Hardware

Apples Logits verraten mehr als erlaubt

Meta packt KI-Augen unter 100 Millionen Parameter

Google wirft Encoder raus — Gemma 4 kommt

Apple klaut Gemini für neue Siri

Nvidia baut die Roboter-Fabrik

Ingenieur baut Laser-Killer gegen Mücken

Nvidia knallt 32-Milliarden-Modell für Robotaxis raus

China macht Millionen Kameras zu KI-Spitzeln

Forscher röntgen KI-Augen mit Transcoders

KI lernt Diagnostik wie echte Ärzte