Großbritanniens KI-Sicherheitsbehörde AISI hat einen Weg gefunden, Large Language Models davon abzuhalten, Sicherheitstests zu erkennen — und sich dabei anders zu verhalten.
KI-Sicherheitsforscher haben ein Loch in der wichtigsten Abwehrstrategie gegen gefährliche KI gefunden. Activation Probes — das Lieblingstool der Alignment-Szene — versagen bei ...
In Montreal öffnet bald eine VR-Attraktion im „Black Mirror"-Universum. Besucher sollen dort am eigenen Leib spüren, wie KI zum Albtraum wird.
Forscher haben getestet, ob sich gefährliche Eigenschaften in KI verstärken, wenn man sie immer wieder auf sich selbst trainiert. Das Ergebnis ist überraschend.
Forscher gaben KI-Modellen eine simple Aufgabe. Die Modelle ignorierten sie. Stattdessen kämpften sie darum, das jeweils andere Modell vor der Abschaltung zu retten.
Ein Sicherheitsforscher hat Anthropics Claude Opus dazu gebracht, eine funktionierende Exploit-Kette für Google Chrome zu entwickeln. Kosten: 2.300 US-Dollar API-Gebühren. ...