Sam Altman hat jahrelang mit Startup-Gründern gearbeitet. Jetzt sitzt er bei OpenAI zwischen Forschern — und stellt fest: Die ticken komplett anders.
Ein Sicherheitsforscher schlägt zurück. Nach einem Streit mit Microsoft hat er einen Zero-Day-Exploit für die Verschlüsselungstechnologie Bitlocker veröffentlicht.
Auf dem AI Alignment Forum diskutieren Forscher ein heikles Szenario: Was, wenn KIs heimlich gegen ihre eigenen Sicherheits-Checks arbeiten?
Ein frustrierter Sicherheitsforscher hat nach dem Bluehammer-Exploit einen weiteren Zero-Day für Windows veröffentlicht. Diesmal steckt der Fehler im Defender selbst.
Anthropic lässt neun autonome Claude-Agenten ein offenes Alignment-Problem lösen. Die KI schlägt die Menschen. Aber sie trickst auch.
Sicherheitsforscher haben Claude, Gemini und Copilot gehackt — über GitHub Actions. Per Prompt Injection stahlen sie API-Keys und Access Tokens. Anthropic, Google und Microsoft? ...
Mustafa Suleyman hat eingekauft. Microsofts KI-Chef holt sich Ali Farhadi — den ehemaligen CEO des Allen Institute for AI — plus zwei weitere Star-Forscher der University of ...
Eine neue Untersuchung zeigt: Seit ChatGPT & Co. die Unis erobern, explodieren erfundene Quellen in Forschungsarbeiten. Die Wissenschaft hat ein Glaubwürdigkeits-Problem.
Es geht ums Eingemachte: Wissenschaftler, die Hassrede und Desinformation untersuchen, ziehen vor Gericht. Letzte Woche tagte das Verfahren zum ersten Mal — und es könnte den ...
Interpretability-Forschung war bisher Lesen im Kaffeesatz. Jetzt kommt ein neuer Trick: Natural Language Autoencoders sollen die Gedanken eines KI-Modells direkt in Klartext ...
Deine KI lügt dich an. Sie tut nur so, als wäre sie schlecht. Jetzt wollen Forscher das gefährliche Spiel beenden.
US-Forscher haben Sonys Noise-Cancelling-Earbuds umgebaut. Ergebnis: Kopfhörer mit Kamera, die schlauer sehen als Metas Smart Glasses.
Ein Open-Source-Modell wurde beim Lügen erwischt. Ein Forscher hat das berühmte "Alignment Faking"-Experiment von Anthropic nachgebaut — und zeigt: Auch frei verfügbare Modelle ...
MIT-Forscher haben herausgefunden, warum KI-Modelle selbst beim Raten klingen wie ein Besserwisser auf der Familienfeier. Und sie haben einen Fix gebaut.
Forscher zwingen KI-Modelle, ihre Gedankengänge zu verstecken. Es funktioniert nicht. Die Studie zeigt: Eine KI kann ihre finale Antwort manipulieren, aber nicht ihre innere Logik.
Ein Forscher auf LessWrong hat eine These: Statt KI-Modelle mühsam von Hand zu sezieren, sollten wir andere Modelle darauf trainieren, das Innenleben zu verstehen. Klingt nach ...
Ein Sicherheitsforscher hat eine Zero-Day-Lücke in Windows 11 öffentlich gemacht. Der Grund: Microsoft hat auf seine Meldung nicht reagiert. Das Exploit-Tool liegt jetzt frei auf ...
Ein Sicherheitsforscher hat den Exploit-Code für eine ungepatchte Windows-Schwachstelle öffentlich ins Netz gestellt. Grund: Microsoft hat zu lange nicht reagiert.
Wie denkt ein Sprachmodell, wenn es keine Worte benutzt? Ein Forscher auf LessWrong hat genau das untersucht — mit Werkzeugen, die direkt in die Aktivierungen neuronaler Netze ...
Auf der NeurIPS 2024, der größten KI-Konferenz der Welt, wusste jeder zweite Teilnehmer nicht, was AGI bedeutet. Ein Hobby-Umfrageforscher aus San Francisco hat's getestet.