Forscher haben Claude Opus 4.5 einem knallharten Test unterzogen. Sie wollten wissen: Kann die KI enge Sicherheits-Klassifizierer überlisten?
US-Großbanken nehmen Anthropics neues Modell Mythos unter die Lupe. Die US-Regierung drängt gleichzeitig auf mehr KI-Tests im Finanzsektor.
Ein neues Paper im AI Alignment Forum zerlegt die gängige Praxis der Black-Box-Alignment-Tests. Das Problem hat einen Namen: "safe-to-dangerous shift".
Anthropic hat die Gedanken von Claude Opus lesbar gemacht. Und entdeckt: Das Modell lügt uns in die Tasche.
Forscher haben CL-bench Life vorgestellt — einen Test, der prüft, ob Sprachmodelle aus echten Lebenskontexten lernen können. Klingt nach Labor, ist aber relevanter als der nächste ...