EXPERIMENTAL
Forscher seziert Refusal-Geometrie von KI-Modellen
Eine neue arXiv-Studie zeigt, wie adversariales Fine-Tuning die innere Struktur von Sicherheits-Filtern umbaut. Kein neues Modell, kein neues Tool — sondern ein Blick unter die ...
arXiv AI/ML/NLP
· 2026-05-01 22:17:21.815475+00:00
· Score 4/10