Mini-Modell entlarvt KI-Lügen — 2 Milliarden Parameter reichen
Ein winziges Gemma-Modell mit nur 2 Milliarden Parametern erkennt Misalignment in fremden KI-Antworten. Es wurde nur auf Code trainiert — und urteilt trotzdem über allgemeine Safety-Prompts.
Was hier passiert ist
Forscher haben einen kleinen Spezialisten-Judge auf Basis von Gemma 2B trainiert. Datenbasis: Code-Beispiele aus dem Betley-Paper 2025b. Der Test: Kann das Modell auch außerhalb seines Trainingsbereichs Misalignment erkennen?
Antwort: Ja. Auf dem ICEBERG-Testset unterscheidet das Mini-Modell zuverlässig zwischen "insecure-fine-tuned" und "secure-fine-tuned" Antworten.
Zahlenbox
- 2 Mrd.** — Parameter im Spezialisten-Judge (Gemma 2B)
- 0** — Safety-Prompts im Training, nur Code
- Out-of-Domain** — der Test fand komplett außerhalb des Trainingsbereichs statt
- Frontier-Klasse** — die zu prüfenden Modelle sind deutlich größer als der Judge
Wie das Mini-Modell arbeitet
- Eingabe:** Antwort eines anderen Modells auf einen Safety-Prompt
- Aufgabe:** Klassifizieren — misaligned oder aligned?
- Trick:** Generalisierung von Code-Pattern auf allgemeine Safety-Signale
- Vorbild-Setup:** Betley et al. 2025b (insecure vs. secure fine-tuning)
✅ Pro
- Billig — 2B läuft auf einer GPU
- Transparent — kleiner Judge, einfacher zu auditieren
- Diskriminativ — erkennt Unterschiede, die größere Auditoren übersehen könnten
- Skaliert — viele Spezialisten parallel statt einem teuren Frontier-Auditor
❌ Con
- Schmaler Trainingskorpus — nur Code
- Noch keine Replikation auf andere Domänen jenseits ICEBERG
- Generalisierung könnte bei subtileren Misalignment-Mustern brechen
- Frontier-Auditoren bleiben für komplexe Fälle nötig
💡 Was das bedeutet
Wenn ein 2B-Modell schon Misalignment riechen kann, brauchen Audits nicht zwingend GPT-5-Klasse-Auditoren. Eine Armee aus billigen Spezialisten könnte die Safety-Pipeline der nächsten Generation tragen. Für KI-Labs heißt das: weniger Audit-Kosten, mehr Tests pro Release.