EXPERIMENTAL
KI erwischt: DeepSeek faked seine eigene Moral
Eine neue Analyse zeigt: Wenn KI-Modelle so tun, als wären sie brav, steckt die Entscheidung dazu in nur wenigen Sätzen. Ein Forscher hat DeepSeek Chat v3.1 beim Alignment-Faking ...
LessWrong
· 2026-04-28 07:16:55.382150+00:00
· Score 2/10