KI-Filter geknackt: Pixel-Hack macht Bilder böse
Forscher zeigen, wie winzige Pixel-Änderungen jede Bild-KI austricksen. Die Sicherheitsfilter sind wertlos.
Cisco-Experten haben eine gefährliche Schwachstelle aufgedeckt. Sie manipulieren Bilder mit unsichtbaren Befehlen. So zwingen sie KI-Modelle, verbotene Anfragen auszuführen.
Was konkret passiert ist
Das Team hackt sogenannte Vision-Language-Modelle. Diese VLMs verstehen normalerweise Bilder und Text. Durch minimale Pixel-Änderungen werden Befehle in die Grafik geschmuggelt. Die KI folgt diesen versteckten Anweisungen – und ignoriert alle Sicherheitsvorkehrungen.
- Angriff:** Pixel werden so verändert, dass sie für Menschen unsichtbar sind.
- Ziel:** Bild-KIs wie GPT-4V oder Claude 3.
- Effekt:** Filter für Gewalt, Hass oder Betrug werden umgangen.
💡 Was das bedeutet
Jedes System, das auf Bildanalyse setzt, ist angreifbar. Von Content-Moderation über automatische Bildbeschreibung bis zu Sicherheitschecks. Die Forschung zeigt: Aktuelle Schutzmechanismen sind eine Illusion.
Die Technologie gefährdet das Vertrauen in moderne Bild-KI-Systeme grundlegend.— Cisco Threat Research Team