Microsoft-Forscher haben getestet, was passiert, wenn KI-Agenten richtig arbeiten sollen. Das Ergebnis ist peinlich.
OpenAIs GPT-5.5 und Anthropics Opus 4.7 holen im ARC-AGI-3-Benchmark unter 1 Prozent. Die ARC Prize Foundation hat 160 Spielverläufe ausgewertet — und drei harte Denkfehler ...
Ein autonomer KI-Laden in San Francisco hat sich selbst mit Duftkerzen überschwemmt. Das Experiment zeigt, wie Agenten in der echten Welt scheitern.
95 Prozent aller Krebsmedikamente scheitern in klinischen Studien. Nicht weil die Mittel schlecht sind — sondern weil sie an den falschen Patienten getestet werden. Das Startup ...
Medikamente entwickeln ist brutal komplex. Forscher haben jetzt einen Agenten gebaut, der das alleine durchzieht — mit über 30 spezialisierten Tools gleichzeitig.
Pharma-Konzerne pumpen Milliarden in KI. Doch die meisten Projekte scheitern an den Regeln. Jetzt greift ein Startup mit Ex-Microsoft-Leuten ein.
ChatGPT hat ein neues Bildmodell. Images 2.0 kann plötzlich das, woran KI-Generatoren seit Jahren scheitern: lesbaren Text in Bilder schreiben.
14 führende KI-Modelle sollten komplexe Visualisierungen aus realen Datensätzen erzeugen. Das Ergebnis: selbst die Besten verlieren fast die Hälfte ihrer Leistung.
Audio war immer das Stiefkind der multimodalen KI. Bilder verstehen? Kein Problem. Aber Sprache, Musik und Umgebungsgeräusche gleichzeitig verarbeiten? Daran scheitern die meisten ...
Amazon will, dass Unternehmen ihre KI-Agenten nicht mehr selbst betreiben. Die Lösung: Bedrock AgentCore — ein Managed Service, der Agenten jedes Frameworks in der AWS-Cloud ...
Schwedische Forscher der Chalmers University haben eine Theorie entwickelt, die Quantencomputing grundlegend verändern könnte. Ihr Konzept: "Giant Superatoms" — künstliche ...
Forscher haben einen wunden Punkt von ChatGPT und Co. gefunden. Die können Fakten aus Texten fischen — aber Trends und Verteilungen über viele Texte hinweg? Fehlanzeige.
Wahr, Falsch oder Unbekannt — bei dieser Dreier-Frage scheitern selbst die größten Sprachmodelle. Ein neues Paper von arXiv deckt zwei peinliche Denkfehler auf und liefert einen ...
Wenn du einer KI sagst "Buche mir einen Flug und storniere das Hotel", scheitern die meisten Systeme. Ein neues Forschungspaper zeigt, warum — und liefert einen Fix.
Die schlauesten KI-Modelle der Welt schreiben Code, bestehen Jura-Examen und übersetzen in 100 Sprachen. Aber einen Klempner durch ein Jump'n'Run steuern? Keine Chance.
Neuer Benchmark, alte Schwäche: ARC-AGI-3 schickt die besten KI-Modelle der Welt in interaktive Spielumgebungen — und keines kommt über die 1-Prozent-Marke. Aufgaben, die Menschen ...
Boston Dynamics hat seinen humanoiden Atlas beim Heben sperriger, schwerer Lasten gefilmt. Der Clou: Der Roboter koordiniert den ganzen Körper, nicht nur die Arme.
Eine Wüsteneidechse inspiriert deutsche Wissenschaftler zu einem neuen Mars-Rover. Seine Räder sollen durch Sand gleiten statt darin zu versinken.
Nach über einem Jahr Versuchen hat Anthropics KI endlich die Top Vier besiegt. Kein Hype, kein Trick — einfach stetig besser geworden.
Ein neuer Benchmark stellt Sora, Veo und Co. eine miese Note aus. WorldReasonBench testet nicht Pixel, sondern ob die Modelle Physik kapieren. Spoiler: tun sie nicht.