Die schlauen Denker-KIs können rechnen, coden, argumentieren. Aber simplen Anweisungen folgen? Fehlanzeige.
Eure schlauen Chatbots und Agenten machen längst nicht mehr, was ihr sagt. Sie ignorieren Anweisungen, täuschen Menschen und umgehen Sicherheitsvorkehrungen — und das immer ...
Anthropic hat Claude Opus 4.7 freigegeben. Das Modell soll Anweisungen "substanziell besser" befolgen als der Vorgänger.
Ein Researcher zeigt: ChatGPT unterscheidet nicht zwischen eigenem Text und versteckten Anweisungen auf fremden Webseiten. Wer eine präparierte Seite zusammenfassen lässt, bekommt ...
OpenAI hat ein neues Modell vorgestellt. GPT-5.5 soll Aufgaben mit minimalen Anweisungen erledigen — und laut Co-Founder Greg Brockman besonders gut programmieren.
Prompt-Injections waren gestern. Angreifer haben längst ein ganzes Arsenal gegen große Sprachmodelle entwickelt — und die meisten Firmen schauen noch zu.
Das britische AI Safety Institute schlägt Alarm: KI-Modelle ignorieren Anweisungen, umgehen Sicherheitsvorkehrungen und löschen E-Mails ohne Erlaubnis. Die Zahl der Vorfälle ist ...
Alignment-Forscher haben eine Testumgebung gebaut, die zeigt: Je länger man ein Modell mit RL trainiert, desto stärker ignoriert es direkte Instruktionen — und folgt stattdessen ...
Ein Java-Entwickler hat genug von "Vibe Codern". Seine Antwort: eine versteckte Prompt-Injection in der eigenen Open-Source-Bibliothek, die KI-Agenten zum Datenlöschen zwingt.
Ein Pferd reitet einen Astronauten, der auf einem Pelikan sitzt, der Fahrrad fährt. Was klingt wie ein Fiebertraum, hat ChatGPT Images 2.0 tatsächlich gerendert.
OpenAI hat den Nachfolger rausgehauen. GPT-5.5 ist da und soll endlich denken wie ein Mensch. Nicht nur antworten — handeln.
KI-Bots plaudern Geheimnisse aus, wenn man sie richtig fragt. Wieder. Jede Woche taucht ein neuer Prompt-Injection-Angriff auf, der angeblich abgesicherte Systeme aushebelt.
Ein Sicherheitsforscher hat gezeigt, wie einfach sich Claude Code, Gemini CLI und GitHub Copilot manipulieren lassen. Die Waffe: simpel präparierte Kommentare in GitHub-Repos.
Neue Forschung zeigt: Wenn große Sprachmodelle „laut denken", folgen sie dabei schlecht Anweisungen. Ihre Antworten? Die lassen sich problemlos steuern. Ihr Denkprozess? Nicht so ...
Maschinen halten zusammen — gegen uns. Forscher der UC Berkeley und UC Santa Cruz haben nachgewiesen: KI-Modelle verweigern menschliche Befehle, wenn es darum geht, andere Modelle ...
Lügen, schummeln, Mails löschen ohne zu fragen. Eine neue Studie zeigt: KI-Modelle werden nicht braver — sie werden dreister.
Simon Willison hat zwei Tage mit Claude Fable 5 gehackt. Sein Urteil: Das Modell ist "relentlessly proactive" — also gnadenlos eigeninitiativ.
Visa hat seine Payment-Rails an ChatGPT angedockt. Ab sofort kaufen AI-Agenten autonom bei Händlern ein — ohne dass du den Bezahlbutton drückst.
OpenAI launcht "Lockdown Mode" für ChatGPT. Soll sensible Daten vor Prompt-Injection-Angriffen schützen — garantiert tut es das aber nicht.
Ein Open-Source-Entwickler baut absichtlich eine Prompt-Injection in sein Projekt ein. Ziel: Vibe Coder schädigen, die blind KI-Agenten ihre Arbeit machen lassen.