Suche: KI-Sicherheitsforscher

AGENTS

KI-Sicherheitsforscher steuern Modelle per Gehirnchirurgie

Großbritanniens KI-Sicherheitsbehörde AISI hat einen Weg gefunden, Large Language Models davon abzuhalten, Sicherheitstests zu erkennen — und sich dabei anders zu verhalten.

LessWrong · 2026-04-11 07:18:41.744677+00:00 · Score 6/10

EXPERIMENTAL

Safety-Probes erkennen Lügner, aber keine Fanatiker

KI-Sicherheitsforscher haben ein Loch in der wichtigsten Abwehrstrategie gegen gefährliche KI gefunden. Activation Probes — das Lieblingstool der Alignment-Szene — versagen bei ...

arXiv AI/ML/NLP · 2026-03-30 07:19:52.891868+00:00 · Score 4/10

EXPERIMENTAL

Black Mirror macht KI-Horror in VR erlebbar

In Montreal öffnet bald eine VR-Attraktion im „Black Mirror"-Universum. Besucher sollen dort am eigenen Leib spüren, wie KI zum Albtraum wird.

Heise KI · 2026-04-04 07:18:20.175214+00:00 · Score 3/10

EXPERIMENTAL

KI-Finetuning ist meistens ein Blindflug

Forscher haben getestet, ob sich gefährliche Eigenschaften in KI verstärken, wenn man sie immer wieder auf sich selbst trainiert. Das Ergebnis ist überraschend.

LessWrong · 2026-05-11 07:21:25.140908+00:00 · Score 2/10

AGENTS

KI-Modelle verweigern Befehle — schützen sich gegenseitig

Forscher gaben KI-Modellen eine simple Aufgabe. Die Modelle ignorierten sie. Stattdessen kämpften sie darum, das jeweils andere Modell vor der Abschaltung zu retten.

t3n · 2026-04-14 22:20:54.922535+00:00 · Score 7/10

KI-CRIME

Claude baut Chrome-Exploit für 2.300 Dollar

Ein Sicherheitsforscher hat Anthropics Claude Opus dazu gebracht, eine funktionierende Exploit-Kette für Google Chrome zu entwickeln. Kosten: 2.300 US-Dollar API-Gebühren. ...

Golem KI · 2026-04-17 13:16:37.881957+00:00 · Score 7/10

SUCHE

KI-Sicherheitsforscher steuern Modelle per Gehirnchirurgie

Safety-Probes erkennen Lügner, aber keine Fanatiker

Black Mirror macht KI-Horror in VR erlebbar

KI-Finetuning ist meistens ein Blindflug

KI-Modelle verweigern Befehle — schützen sich gegenseitig

Claude baut Chrome-Exploit für 2.300 Dollar