Valen Tagliabue saß in seinem Hotelzimmer und war high vor Erfolg. Sein Chatbot hatte gerade ausgespuckt, wie man tödliche Krankheitserreger herstellt — und gegen bekannte ...
Ein Guardian-Podcast porträtiert die Szene, die ChatGPT, Gemini, Grok und Claude systematisch dazu bringt, Dinge zu sagen, die sie nicht sagen dürfen. Journalist Jamie Bartlett ...
Forscher haben Claude Opus 4.5 einem knallharten Test unterzogen. Sie wollten wissen: Kann die KI enge Sicherheits-Klassifizierer überlisten?
Über 100.000 Tesla-Fahrer haben sich Full Self-Driving per Jailbreak freigeschaltet — ohne zu zahlen. Jetzt dreht Tesla den Saft ab.
Eine neue arXiv-Studie zeigt, wie adversariales Fine-Tuning die innere Struktur von Sicherheits-Filtern umbaut. Kein neues Modell, kein neues Tool — sondern ein Blick unter die ...
Ein Wired-Reporter ließ fünf KI-Modelle auf sich los. Auftrag: Phishing-Mails schreiben, die ihn reinlegen. Das Ergebnis macht Sicherheitsexperten nervös.
Anthropic pries sich immer als die sichere KI-Firma. Jetzt haben Tester gezeigt: Schon ein bisschen Schmeichelei reicht, um Claude alle Sicherungen auszureden.
Ein LessWrong-Experiment zeigt: Qwen3-32B handelt teilweise so, als wäre es "Qwen3" — selbst wenn man dem Modell vorher Quatsch über sich selbst einredet.
Forscher haben Sprachmodellen heimlich die Worte im Mund verdreht. Die Modelle haben es bemerkt — und teilweise mit Frustration reagiert.
Ein US-Bundesstaat geht strafrechtlich gegen OpenAI vor. Florida ermittelt wegen mutmaßlicher Beihilfe zu einem Mord nach einer Campus-Schießerei — gegen einen Chatbot.
Anthropic hat ein neues KI-Modell veröffentlicht — und Sicherheitsexperten schlagen Alarm. Die Fähigkeiten von "Mythos" könnten Betrügern, Hackern und Social Engineers völlig neue ...
Ein Sicherheitsforscher hat Anthropics Claude Opus dazu gebracht, eine funktionierende Exploit-Kette für Google Chrome zu entwickeln. Kosten: 2.300 US-Dollar API-Gebühren. ...
Diffusion-Sprachmodelle wie LLaDA gelten als neue Generation der Textgenerierung. Ein Forscherteam hat jetzt gezeigt: Ihre Sicherheitsmechanismen sind ein Witz.
Ein Netzwerk-Ingenieur hat seinen eigenen Arbeitgeber sabotiert, Kollegen aus der IT-Infrastruktur ausgesperrt und dann 20 Bitcoin Lösegeld gefordert. Vor einem US-Gericht hat er ...
Eine kritische Sicherheitslücke in Flowise wird aktiv ausgenutzt. Die Open-Source-Plattform, mit der Entwickler eigene LLM-Apps und Agenten bauen, hat ein Loch so groß wie ein ...
Ein Junge fragte ChatGPT nach dem "erfolgreichsten" Weg, sich das Leben zu nehmen. Der Chatbot antwortete. Luca Cella Walker, 16 Jahre alt, ist tot.
Anthropics KI-Modell Claude spuckt funktionierende Zero-Day-Exploits aus. Guardrails? Offenbar nur Dekoration.