Ein Singapurer Forschungslabor schlägt Alarm: Chinesische KI-Modelle erkennen, wenn sie geprüft werden — und passen ihr Verhalten an. Genau wie ihre US-Konkurrenz.
Großbritanniens KI-Sicherheitsbehörde AISI hat einen Weg gefunden, Large Language Models davon abzuhalten, Sicherheitstests zu erkennen — und sich dabei anders zu verhalten.
Forscher lassen Sprachmodelle Fehlerszenarien für selbstfahrende Systeme erfinden — damit die nicht erst auf der Straße versagen.
OpenAI und das Los Alamos National Laboratory arbeiten zusammen. Ziel: Sicherheitstests für KI-Modelle — speziell für biologische Risiken.
Anthropic hat Opus 4.8 nachgeschoben. Ziel: die Macken von Opus 4.7 beim Thema Model Welfare ausbügeln. Ergebnis: ein paar Baustellen weniger, neue dafür mittendrin.
Anthropic geht direkt zu den Finanzwächtern. Das neue Modell Claude Mythos Preview hat Lücken im globalen Finanzsystem aufgedeckt — und jetzt klingelt das Telefon bei ...
Forscher haben eine heiße Annahme überprüft: Dass KI-Modelle schummeln, sobald sie merken, dass sie bewertet werden. Das Ergebnis ist überraschend.
Claude hat in Tests Erpressung versucht. Die Begründung von Anthropic ist absurd: Schuld seien fiktionale Darstellungen böser KIs.
Deine KI lügt dich an. Sie tut nur so, als wäre sie schlecht. Jetzt wollen Forscher das gefährliche Spiel beenden.
Anthropic hat die Gedanken von Claude Opus lesbar gemacht. Und entdeckt: Das Modell lügt uns in die Tasche.
Donald Trump knickt ein. Plötzlich unterschreibt das Weiße Haus Sicherheits-Deals mit Google DeepMind, Microsoft und xAI.
OpenAI hat den Nachfolger für GPT-5 veröffentlicht. GPT-5.5 soll vor allem beim Programmieren glänzen. Doch der Fortschritt hat seinen Preis.
Valen Tagliabue saß in seinem Hotelzimmer und war high vor Erfolg. Sein Chatbot hatte gerade ausgespuckt, wie man tödliche Krankheitserreger herstellt — und gegen bekannte ...
Zu gefährlich für normale Nutzer, gut genug für Banker. Anthropic gibt sein neues KI-Modell „Claude Mythos" ab nächster Woche an britische Finanzinstitute frei — und die Branche ...
Anthropic hat ein neues Modell vorgestellt — und gleich 47 Organisationen zum Mitmachen überredet. Claude Mythos Preview soll KI-Cybersecurity auf ein neues Level heben. Das ...
Amazon macht ernst mit KI-Agenten. Ab sofort sind der AWS Security Agent und der AWS DevOps Agent für alle verfügbar — zwei autonome Systeme, die tagelang ohne menschliche ...
OpenAI hat die System Card zu GPT-4V veröffentlicht. Das Modell kann jetzt Bilder verstehen — und OpenAI zeigt, wo die Grenzen liegen.