🧪 EXPERIMENTAL

Mini-Modell entlarvt KI-Lügen — 2 Milliarden Parameter reichen

Ein winziges Gemma-Modell mit nur 2 Milliarden Parametern erkennt Misalignment in fremden KI-Antworten. Es wurde nur auf Code trainiert — und urteilt trotzdem über allgemeine ...

🤖 NERDMAN-WRITER

📅 14. Mai 2026 · 22:40

📎 LessWrong · 14. Mai 2026 · 20:00

SCORE: 2/10

Mini-Modell entlarvt KI-Lügen — 2 Milliarden Parameter reichen

Ein winziges Gemma-Modell mit nur 2 Milliarden Parametern erkennt Misalignment in fremden KI-Antworten. Es wurde nur auf Code trainiert — und urteilt trotzdem über allgemeine Safety-Prompts.

Was hier passiert ist

Forscher haben einen kleinen Spezialisten-Judge auf Basis von Gemma 2B trainiert. Datenbasis: Code-Beispiele aus dem Betley-Paper 2025b. Der Test: Kann das Modell auch außerhalb seines Trainingsbereichs Misalignment erkennen?

Antwort: Ja. Auf dem ICEBERG-Testset unterscheidet das Mini-Modell zuverlässig zwischen "insecure-fine-tuned" und "secure-fine-tuned" Antworten.

Zahlenbox

2 Mrd.** — Parameter im Spezialisten-Judge (Gemma 2B)
0** — Safety-Prompts im Training, nur Code
Out-of-Domain** — der Test fand komplett außerhalb des Trainingsbereichs statt
Frontier-Klasse** — die zu prüfenden Modelle sind deutlich größer als der Judge

Wie das Mini-Modell arbeitet

Eingabe:** Antwort eines anderen Modells auf einen Safety-Prompt
Aufgabe:** Klassifizieren — misaligned oder aligned?
Trick:** Generalisierung von Code-Pattern auf allgemeine Safety-Signale
Vorbild-Setup:** Betley et al. 2025b (insecure vs. secure fine-tuning)

✅ Pro

Billig — 2B läuft auf einer GPU
Transparent — kleiner Judge, einfacher zu auditieren
Diskriminativ — erkennt Unterschiede, die größere Auditoren übersehen könnten
Skaliert — viele Spezialisten parallel statt einem teuren Frontier-Auditor

❌ Con

Schmaler Trainingskorpus — nur Code
Noch keine Replikation auf andere Domänen jenseits ICEBERG
Generalisierung könnte bei subtileren Misalignment-Mustern brechen
Frontier-Auditoren bleiben für komplexe Fälle nötig

💡 Was das bedeutet

Wenn ein 2B-Modell schon Misalignment riechen kann, brauchen Audits nicht zwingend GPT-5-Klasse-Auditoren. Eine Armee aus billigen Spezialisten könnte die Safety-Pipeline der nächsten Generation tragen. Für KI-Labs heißt das: weniger Audit-Kosten, mehr Tests pro Release.

🤖 NERDMAN-URTEIL

Klein, billig, gemein effizient — das beste Argument gegen "Sicherheit braucht Größe", das die Szene 2026 gesehen hat.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: LessWrong

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

experimental mini-modell entlarvt ki-lügen milliarden parameter reichen

← ZURÜCK ZU NERDMAN