Die Londoner Polizei testet eine neue Überwachungsplattform, um den explodierenden Ladendiebstahl zu bekämpfen. Und sie verspricht: Keine Gesichtserkennung! Na ja, fast keine.
Roblox pumpt seinen AI-Assistant mit agentic Tools auf. Der Bot plant, baut und testet Games jetzt selbstständig — vom Konzept bis zum Playtest.
Metas Ads-Ranking-Team hat einen Agenten gebaut, der GPU-Kernel selbst optimiert. KernelEvolve schreibt, testet und verbessert Low-Level-Code — ohne dass ein Mensch eingreift.
LLMs sollen unsere lebenslangen Assistenten werden. Aber woher wissen wir, ob sie sich tatsächlich merken, was wir ihnen erzählen? Ein neuer Benchmark will genau das messen.
GPT-5, Gemini 3 Pro, Claude Opus 4.5 — sie alle liefern detaillierte medizinische Diagnosen. Auch wenn man ihnen gar kein Bild schickt. Stanford hat's bewiesen.
Roboter sollen aufräumen, kochen, Sachen sortieren. Klingt einfach — ist es nicht. Microsoft Research zeigt jetzt, wo Vision-Language-Models bei komplexen Aufgaben komplett ...
Betrüger fluten Spotify mit KI-generierter Musik — und hängen sie echten Künstlern an. Jetzt testet der Streaming-Gigant ein neues Tool dagegen.
Sprachmodelle sollen jetzt Forschungsideen bewerten — bevor auch nur ein einziges Experiment läuft. Ein neues arXiv-Paper testet, ob LMs den Erfolg von KI-Forschung vorhersagen ...
Das US-Verteidigungsministerium probiert konkurrierende KI-Modelle aus — und Anthropic bangt um den Mega-Deal.
Auf LessWrong testet ein Team, wie gut sich LLM-Monitore aus einer Aufgabe in die nächste übertragen lassen. Ergebnis: Cross-Domain-Training funktioniert — überraschend gut sogar.
Ein neuer Benchmark stellt Sora, Veo und Co. eine miese Note aus. WorldReasonBench testet nicht Pixel, sondern ob die Modelle Physik kapieren. Spoiler: tun sie nicht.
NASA testet einen neuen strahlungsgehärteten Chip, der Raumsonden selbstständig denken lassen soll. Performance: hundertfach schneller als aktuelle Weltraum-Computer.
Das US-Heimatschutzministerium DHS testet autonome Drohnen an der Grenze zu Kanada. Sie sollen "Gefechtsfeldinformationen" sammeln und über 5G streamen.
Ein Investigativ-Journalist testete die Software, die Scams weltweit antreibt. Das Ergebnis ist erschreckend realistisch.
Apple bastelt an einer neuen Waffe im KI-Krieg. Die AirPods sollen Kameras bekommen und sind bereits in fortgeschrittenen Tests.
IBM hat seine Granite-4.1-Familie veröffentlicht — und Simon Willison testet das 3B-Modell mit dem absurdesten Benchmark der KI-Szene: Pelikane auf Fahrrädern in SVG zeichnen.
Die Bundeswehr testet ferngesteuerte Insekten. Russland lässt Tauben mit Elektroden im Hirn fliegen. Der nächste Spion kommt aus dem Tierreich.
Japan Airlines testet menschenähnliche Roboter am Flughafen Tokio. Die sollen Gepäck sortieren. Doch der Praxistest zeigt: Ganz ohne menschliche Aufpasser geht es noch nicht.
Forscher haben CL-bench Life vorgestellt — einen Test, der prüft, ob Sprachmodelle aus echten Lebenskontexten lernen können. Klingt nach Labor, ist aber relevanter als der nächste ...
Die NSA nutzt Anthropics neues KI-Modell Mythos, um Schwachstellen in Microsoft-Produkten zu finden. Das ist ein neues Level der Cyber-Sicherheit.