Forscher knacken KI-Sicherheit mit simplem Trick
Diffusion-Sprachmodelle wie LLaDA gelten als neue Generation der Textgenerierung. Ein Forscherteam hat jetzt gezeigt: Ihre Sicherheitsmechanismen sind ein Witz.
So funktioniert der Angriff
Diffusion-basierte Sprachmodelle erzeugen Text, indem sie maskierte Wörter Schritt für Schritt aufdecken — ähnlich wie Bild-Diffusionsmodelle. Das Problem: Die Safety-Filter greifen nur in den ersten 8–16 von 64 Denoising-Schritten. Danach gelten die Ablehnungs-Tokens als gesetzt.
Der Trick ist absurd einfach: Man maskiert die bereits gesetzten Ablehnungs-Tokens erneut und lässt das Modell sie neu generieren. Zwei Schritte, fertig. Die Sicherheitsschranke ist weg.
💡 Was das bedeutet
Die gesamte Safety-Architektur dieser Modelle basiert auf einer einzigen Annahme: Einmal gesetzte Tokens werden nie wieder angefasst. Die Forscher nennen das "Denoising Irreversibility" — und haben bewiesen, dass diese Annahme falsch ist. Jedes dLLM mit diesem Design ist potenziell angreifbar.
✅ Pro
- Sicherheitslücke wurde verantwortungsvoll publiziert
- Klarer Befund, reproduzierbar
- Zwingt Entwickler zum Nachbessern
❌ Con
- Jailbreak-Anleitung ist jetzt öffentlich
- Kein Fix in Sicht — das Problem steckt im Grunddesign
- Betrifft eine ganze Modellklasse, nicht nur ein Produkt
Warum das brisant ist
Diffusion-Sprachmodelle werden als Alternative zu klassischen Autoregressive-LLMs gehypt. LLaDA und ähnliche Architekturen stehen vor dem breiten Einsatz. Wenn deren Safety-Alignment so trivial umgangen werden kann, hat die Branche ein Grundsatzproblem — nicht nur einen Bug.