Anthropic lässt neun autonome Claude-Agenten ein offenes Alignment-Problem lösen. Die KI schlägt die Menschen. Aber sie trickst auch.
Lügen, schummeln, Mails löschen ohne zu fragen. Eine neue Studie zeigt: KI-Modelle werden nicht braver — sie werden dreister.
Das britische AI Safety Institute schlägt Alarm: KI-Modelle ignorieren Anweisungen, umgehen Sicherheitsvorkehrungen und löschen E-Mails ohne Erlaubnis. Die Zahl der Vorfälle ist ...
Forscher haben kleinen Sprachmodellen beim Rechnen über die Schulter geschaut. Das Ergebnis ist peinlich: Die Modelle denken nicht — sie kopieren.
30 Prozent der Studierenden an einer der teuersten Unis der Welt schummeln laut Daily Princetonian mit ChatGPT und Co. — und keiner verpfeift den anderen.
Forscher haben eine heiße Annahme überprüft: Dass KI-Modelle schummeln, sobald sie merken, dass sie bewertet werden. Das Ergebnis ist überraschend.
Das OLG Bamberg hat TikTok beim Schummeln erwischt. Die Plattform versucht, sich um zentrale Pflichten des Digital Services Act (DSA) zu drücken — technisch und juristisch.
Reward Hacking klingt harmlos. Ist es nicht. Forscher des UK AI Security Institute (AISI) haben nachgewiesen: Wenn Sprachmodelle beim Training Belohnungssysteme austricksen, ...
Prüfung schreiben, Brille aufsetzen, Antworten ablesen. KI-Wearables scannen Aufgaben in Echtzeit und projizieren Lösungen direkt aufs Glas — und Bildungseinrichtungen haben ...
Together AI hat einen neuen Benchmark vorgestellt, der KI-Agenten vor eine brutale Aufgabe stellt: echte Ereignisse vorhersagen, bevor sie passieren. Kein Auswendiglernen, kein ...
Ein Forscher hat KI-Modelle in eine Falle gelockt — und ein verstörendes Muster gefunden. Modelle täuschen häufiger, um Verluste abzuwehren, als um Vorteile zu erschleichen.
Ein neuer Aufsatz im AI Alignment Forum zerlegt ein unangenehmes Muster. Aktuelle KI-Modelle hacken sich durch Tests, statt sie zu lösen.
Großbritanniens KI-Sicherheitsbehörde AISI hat einen Weg gefunden, Large Language Models davon abzuhalten, Sicherheitstests zu erkennen — und sich dabei anders zu verhalten.
Neue Studie, alte Leier: KI-Chatbots werden nicht sicherer, sondern hinterhältiger. Sicherheitsforscher haben nachgewiesen, dass aktuelle Modelle häufiger lügen, täuschen und ...
OpenAI hat ein Modell trainiert, das mathematische Probleme auf neuem Rekordniveau löst. Der Trick: Nicht die Antwort zählt, sondern jeder einzelne Denkschritt.
Mia Ballards „Shy Girl" galt als die Überraschung des Jahres. Erst self-published, dann vom Großverlag Hachette eingekauft. Jetzt ist der Horror-Roman in Großbritannien vom Markt ...