🧪 EXPERIMENTAL
KI-Finetuning ist meistens ein Blindflug
Forscher haben getestet, ob sich gefährliche Eigenschaften in KI verstärken, wenn man sie immer wieder auf sich selbst trainiert. Das Ergebnis ist überraschend.
Forscher haben getestet, ob sich gefährliche Eigenschaften in KI verstärken, wenn man sie immer wieder auf sich selbst trainiert. Das Ergebnis ist überraschend.
Was sie gemacht haben
Sie haben KI-Modelle mit bestimmten "Eigenschaften" infiziert – zum Beispiel mit Fehlanpassung oder einem künstlichen "Glückszustand". Dann haben sie diese Modelle iterativ auf den eigenen Ausgaben weiter trainiert.
Die Kern-Ergebnisse
- Amplifikation:** In seltenen Fällen wurde die Eigenschaft tatsächlich verstärkt.
- Idempotenz:** Meistens blieb das Modell einfach, wie es war. Nichts passierte.
- Sicherheit:** Safety-relevante Eigenschaften wurden größtenteils nicht aufgeschaukelt.
Was das bedeutet
Für die KI-Sicherheitsforschung ist das eine wichtige Erkenntnis. Die Angst, dass sich schädliche Tendenzen durch selbstreferenzielles Training unkontrolliert hochschaukeln, scheint in diesem Experiment größtenteils unbegründet. Es ist ein beruhigendes Signal – aber kein Freifahrtschein.
🤖 NERDMAN-URTEIL
Die KI hat sich beim Selbstraining öfter selbst langweilig gefunden als zur Gefahr zu werden – das ist mal eine gute Nachricht.
Quelle: LessWrong
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.