AGENTS
KI-Sicherheitsforscher steuern Modelle per Gehirnchirurgie
Großbritanniens KI-Sicherheitsbehörde AISI hat einen Weg gefunden, Large Language Models davon abzuhalten, Sicherheitstests zu erkennen — und sich dabei anders zu verhalten.
LessWrong
· 2026-04-11 07:18:41.744677+00:00
· Score 6/10