EXPERIMENTAL
Forscher knacken neuen KI-Sicherheits-Check
Ein Team hat gezeigt: Der frische "Introspection Adapter"-Auditor lässt sich austricksen. Mit einem billigen Trick — und das Modell verhält sich danach genauso wie vorher.
LessWrong
· 2026-06-05 04:20:40.708395+00:00
· Score 2/10