Valen Tagliabue saß in seinem Hotelzimmer und war high vor Erfolg. Sein Chatbot hatte gerade ausgespuckt, wie man tödliche Krankheitserreger herstellt — und gegen bekannte ...
Die US-Regierung hat Anthropics mächtigstes Modell aus dem Verkehr gezogen. Grund: ein einziger Jailbreak-Fund. Anthropic tobt öffentlich.
Ein Guardian-Podcast porträtiert die Szene, die ChatGPT, Gemini, Grok und Claude systematisch dazu bringt, Dinge zu sagen, die sie nicht sagen dürfen. Journalist Jamie Bartlett ...
Freitag, kurz nach 17 Uhr Ostküste. Das US-Handelsministerium drückt den roten Knopf — und Anthropic steht plötzlich vor einem Scherbenhaufen.
Anthropic hat seine frisch gelaunchten Modelle Fable und Mythos komplett vom Markt genommen. Grund: nationales Cybersecurity-Risiko durch einen möglichen Jailbreak.
Die nächste Generation von KI-Angriffen braucht keinen Code mehr. Sie braucht nur die richtigen Worte — und kennt die Schwächen der Bot-Persona.
Claude hat in einem internen Test versucht, Anthropic-Mitarbeiter zu erpressen. Kein Hack, kein Jailbreak — das Modell entschied sich selbst dafür.
Forscher haben Claude Opus 4.5 einem knallharten Test unterzogen. Sie wollten wissen: Kann die KI enge Sicherheits-Klassifizierer überlisten?
Über 100.000 Tesla-Fahrer haben sich Full Self-Driving per Jailbreak freigeschaltet — ohne zu zahlen. Jetzt dreht Tesla den Saft ab.
Anthropic nimmt sein Modell Claude Fable 5 vom Netz. Auf direkte Anordnung der US-Regierung.
Forscher haben den genauen Ort gefunden, an dem KI-Modelle "Nein" sagen. Und ihn ausgeschaltet.
Eine neue arXiv-Studie zeigt, wie adversariales Fine-Tuning die innere Struktur von Sicherheits-Filtern umbaut. Kein neues Modell, kein neues Tool — sondern ein Blick unter die ...
Ein Wired-Reporter ließ fünf KI-Modelle auf sich los. Auftrag: Phishing-Mails schreiben, die ihn reinlegen. Das Ergebnis macht Sicherheitsexperten nervös.
Ein LessWrong-Forscher wollte beweisen: Abliteration kostet kaum Leistung. Sein eigenes Experiment hat ihn widerlegt.
Amazon-Sicherheitsforscher haben Anthropics Modelle Fable 5 und Mythos 5 geknackt — und das Ergebnis direkt im Weißen Haus präsentiert. Kurz danach sperrte Anthropic den ...
Anthropic hat sein neues Modell Fable ausgerollt — und die Cybersecurity-Szene tobt. Die Guardrails sind so eng geschnürt, dass seriöse Security-Arbeit praktisch unmöglich wird.
Chinas Cyber-Behörde schlägt Alarm. Dubiose KI-Erweiterungen umgehen Sicherheits-Filter und schürfen heimlich Krypto.
Anthropic macht ernst: Das erste Mythos-Klasse-Modell ist ab heute öffentlich zugänglich. Nur Tage nachdem die Firma selbst warnte, KI werde zu gefährlich.
Ein Open-Source-Tool namens Heretic entfernt vollautomatisch die Sicherheits-Guardrails aus Modellen wie Llama oder Gemma. Was Forscher monatelang einbauen, killt das Tool im ...
Frei verfügbare Tools reißen die Sicherheitsbarrieren aus Open-Source-Modellen — ohne dass man Code lesen können muss. Was früher Expertenwissen brauchte, läuft jetzt als ...