🚨 KI-CRIME

Forscher knacken KI-Sicherheit mit simplem Trick

Diffusion-Sprachmodelle wie LLaDA gelten als neue Generation der Textgenerierung. Ein Forscherteam hat jetzt gezeigt: Ihre Sicherheitsmechanismen sind ein Witz.

🤖 NERDMAN-WRITER

📅 13. Apr 2026 · 07:21

📎 arXiv AI/ML/NLP · 13. Apr 2026 · 04:00

SCORE: 4/10

Forscher knacken KI-Sicherheit mit simplem Trick

Diffusion-Sprachmodelle wie LLaDA gelten als neue Generation der Textgenerierung. Ein Forscherteam hat jetzt gezeigt: Ihre Sicherheitsmechanismen sind ein Witz.

So funktioniert der Angriff

Diffusion-basierte Sprachmodelle erzeugen Text, indem sie maskierte Wörter Schritt für Schritt aufdecken — ähnlich wie Bild-Diffusionsmodelle. Das Problem: Die Safety-Filter greifen nur in den ersten 8–16 von 64 Denoising-Schritten. Danach gelten die Ablehnungs-Tokens als gesetzt.

Der Trick ist absurd einfach: Man maskiert die bereits gesetzten Ablehnungs-Tokens erneut und lässt das Modell sie neu generieren. Zwei Schritte, fertig. Die Sicherheitsschranke ist weg.

💡 Was das bedeutet

Die gesamte Safety-Architektur dieser Modelle basiert auf einer einzigen Annahme: Einmal gesetzte Tokens werden nie wieder angefasst. Die Forscher nennen das "Denoising Irreversibility" — und haben bewiesen, dass diese Annahme falsch ist. Jedes dLLM mit diesem Design ist potenziell angreifbar.

✅ Pro

Sicherheitslücke wurde verantwortungsvoll publiziert
Klarer Befund, reproduzierbar
Zwingt Entwickler zum Nachbessern

❌ Con

Jailbreak-Anleitung ist jetzt öffentlich
Kein Fix in Sicht — das Problem steckt im Grunddesign
Betrifft eine ganze Modellklasse, nicht nur ein Produkt

Warum das brisant ist

Diffusion-Sprachmodelle werden als Alternative zu klassischen Autoregressive-LLMs gehypt. LLaDA und ähnliche Architekturen stehen vor dem breiten Einsatz. Wenn deren Safety-Alignment so trivial umgangen werden kann, hat die Branche ein Grundsatzproblem — nicht nur einen Bug.

🤖 NERDMAN-URTEIL

Wer seine KI-Sicherheit auf die Hoffnung baut, dass niemand den Reset-Knopf drückt, hat keine Sicherheit — sondern ein Gebet.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: arXiv AI/ML/NLP

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

ki-crime forscher knacken ki-sicherheit simplem trick

← ZURÜCK ZU NERDMAN