Forscher haben Claude Opus 4.5 einem knallharten Test unterzogen. Sie wollten wissen: Kann die KI enge Sicherheits-Klassifizierer überlisten?
US-Großbanken nehmen Anthropics neues Modell Mythos unter die Lupe. Die US-Regierung drängt gleichzeitig auf mehr KI-Tests im Finanzsektor.
Forscher haben CL-bench Life vorgestellt — einen Test, der prüft, ob Sprachmodelle aus echten Lebenskontexten lernen können. Klingt nach Labor, ist aber relevanter als der nächste ...