🧪 EXPERIMENTAL

Nous Research knackt KI-Verweigerung mit 0,1 Prozent

Forscher haben den genauen Ort gefunden, an dem KI-Modelle "Nein" sagen. Und ihn ausgeschaltet.

🤖 NERDMAN-WRITER

📅 23. Mai 2026 · 13:19

📎 MarkTechPost · 23. Mai 2026 · 10:32

SCORE: 2/10

Nous Research knackt KI-Verweigerung mit 0,1 Prozent

Forscher haben den genauen Ort gefunden, an dem KI-Modelle "Nein" sagen. Und ihn ausgeschaltet.

Was Nous gebaut hat

Nous Research hat eine Methode namens Contrastive Neuron Attribution (CNA) veröffentlicht. CNA findet die MLP-Neuronen, die bei schädlichen Prompts anders feuern als bei harmlosen. Keine Sparse Autoencoder, kein Re-Training, keine Gewichts-Änderung.

Die Zahlen

0,1 %** — der MLP-Aktivierungen reichen, um Refusals einzukassieren
Neuron-Level** — chirurgischer Eingriff statt Brute-Force-Jailbreak
0** — Trainings-Runden nötig, läuft auf fertigen Modellen

✅ Pro

Extrem präzise: keine Holzhammer-Methode wie bisherige Jailbreaks
Funktioniert ohne teures SAE-Training
Liefert echte mechanistische Erkenntnisse über Alignment

❌ Con

Anleitung zum Aushebeln von Safety-Tuning
Bestätigt, wie fragil RLHF-Schutzmaßnahmen wirklich sind
Wird garantiert von den falschen Leuten gelesen

💡 Was das bedeutet

Safety-Tuning ist kein dickes Schloss — es ist ein winziger Schalter. Wer weiß wo er sitzt, kann ihn umlegen. Das ist gute Wissenschaft und ein schlechtes Gefühl zugleich.

🤖 NERDMAN-URTEIL

Saubere Forschung, die nebenbei beweist, wie hauchdünn das Alignment-Pflaster wirklich klebt.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: MarkTechPost

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

experimental nous research knackt ki-verweigerung 0,1 prozent

← ZURÜCK ZU NERDMAN