Anthropic kippt eigene Sicherheitsversprechen
Anthropic hat seine Responsible Scaling Policy auf Version 3 aktualisiert. Klingt harmlos. Ist es nicht. Das Unternehmen streicht zentrale Zusagen aus der Vorgängerversion — darunter das Versprechen, nicht weiterzumachen, wenn es gefährlich wird.
Die Begründung
Der Wettbewerb mache es unmöglich, blind an diesem Prinzip festzuhalten. Wörtlich: Es würde die Welt nicht sicherer machen. Stattdessen setzt Anthropic jetzt auf "aspirational goals" — also Wunschziele statt harter Commitments.
Wer dahintersteckt
Holden Karnofsky, einflussreicher Berater bei Anthropic und Ex-Chef von Open Philanthropy, hat die Änderungen aktiv vorangetrieben. Seine Argumentation: Die alte Strategie mit konkreten Zusagen sei ein Fehler gewesen. Besser seien flexible Zielvorstellungen.
Wir haben gelernt, dass spezifische Commitments der falsche Ansatz waren.— Holden Karnofsky, Anthropic-Berater
📅 Timeline
- RSP v1:** Anthropic setzt sich als Sicherheits-Vorreiter in Szene
- RSP v2:** Konkrete Commitments — "Wir stoppen, wenn es gefährlich wird"
- RSP v3 (2026):** Commitments gestrichen, ersetzt durch "aspirational goals"
💡 Was das bedeutet
Das Unternehmen, das sich als sicherste AI-Firma der Welt positioniert hat, weicht seine eigenen Standards auf. Die Botschaft an die Branche: Selbst wer Sicherheit predigt, knickt ein, sobald der Wettbewerbsdruck steigt. Wenn Anthropic seine Versprechen nicht hält — wer dann?
✅ Pro
- Ehrlich: Unrealistische Versprechen zurückzunehmen ist besser als sie heimlich zu brechen
- Flexibilität kann in einem sich schnell verändernden Feld sinnvoll sein
❌ Con
- Zerstört Vertrauen bei der Safety-Community
- "Aspirational Goals" sind juristisch und praktisch wertlos
- Setzt ein fatales Signal für die gesamte Branche