EXPERIMENTAL
KI-Sicherheits-Tricks haben fiese Hintertür
Forscher haben drei populäre Methoden getestet, um KI-Modelle zu "entgiften". Das Ergebnis: Die Misalignment ist nicht weg — sie versteckt sich nur.
LessWrong
· 2026-05-01 22:16:47.623904+00:00
· Score 2/10