🧪 EXPERIMENTAL
Nous Research knackt KI-Verweigerung mit 0,1 Prozent
Forscher haben den genauen Ort gefunden, an dem KI-Modelle "Nein" sagen. Und ihn ausgeschaltet.
Forscher haben den genauen Ort gefunden, an dem KI-Modelle "Nein" sagen. Und ihn ausgeschaltet.
Was Nous gebaut hat
Nous Research hat eine Methode namens Contrastive Neuron Attribution (CNA) veröffentlicht. CNA findet die MLP-Neuronen, die bei schädlichen Prompts anders feuern als bei harmlosen. Keine Sparse Autoencoder, kein Re-Training, keine Gewichts-Änderung.
Die Zahlen
- 0,1 %** — der MLP-Aktivierungen reichen, um Refusals einzukassieren
- Neuron-Level** — chirurgischer Eingriff statt Brute-Force-Jailbreak
- 0** — Trainings-Runden nötig, läuft auf fertigen Modellen
✅ Pro
- Extrem präzise: keine Holzhammer-Methode wie bisherige Jailbreaks
- Funktioniert ohne teures SAE-Training
- Liefert echte mechanistische Erkenntnisse über Alignment
❌ Con
- Anleitung zum Aushebeln von Safety-Tuning
- Bestätigt, wie fragil RLHF-Schutzmaßnahmen wirklich sind
- Wird garantiert von den falschen Leuten gelesen
💡 Was das bedeutet
Safety-Tuning ist kein dickes Schloss — es ist ein winziger Schalter. Wer weiß wo er sitzt, kann ihn umlegen. Das ist gute Wissenschaft und ein schlechtes Gefühl zugleich.
🤖 NERDMAN-URTEIL
Saubere Forschung, die nebenbei beweist, wie hauchdünn das Alignment-Pflaster wirklich klebt.
Quelle: MarkTechPost
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.