Neue Methode soll endlich zeigen, wie Vision-Language-Modelle Bilder in Worte übersetzen — und warum sie dabei halluzinieren.
Ontarios Rechnungsprüfer hat sich die KI-Notizassistenten in Arztpraxen angesehen. Das Ergebnis: Die Dinger halluzinieren munter Symptome, Diagnosen und Behandlungen zusammen, die ...
Vision-Language-Modelle halluzinieren wie betrunkene Augenzeugen. Ein neues Paper will das Problem beim Decoding lösen — ohne Training, ohne Geld, ohne Hype.
OpenAI gibt zu: Ein Trainingsfehler ließ die Modelle wie verrückt Fabelwesen halluzinieren. Goblins, Gremlins, Kobolde — überall.
Berkeley hat einen neuen Planungsalgorithmus für World Models vorgestellt. GRASP löst das Problem, das bisher jeden Gradienten-Planer bei längeren Horizonten zerstört hat: ...
DeepMind hat einen neuen Benchmark vorgestellt: FACTS Grounding. Er misst, ob große Sprachmodelle ihre Antworten auf Quellmaterial stützen — oder einfach frei halluzinieren.
Elon Musks KI-Chatbot Grok hat eine unschuldige Frau ins Visier genommen. Christi Hill, 12 Jahre lang Polizistin in Hampshire, musste an einen sicheren Ort fliehen.
Ein neues Tool simuliert echte Läden mit synthetischen Konsumenten auf LLM-Basis. Heißt: Du baust deinen Shop, KI-Avatare gehen einkaufen, du siehst was funktioniert — bevor ein ...
Ein neues Open-Source-Tool namens Robin schickt LLMs ins Darknet — und lässt sie OSINT-Recherche erledigen. Entwickelt von Apurv Singh Gautam, jetzt trending auf GitHub.
Robinhood macht ernst mit Agent-Banking. Nutzer können ab sofort ein separates Konto mit aufgeladenem Guthaben einrichten — und einen KI-Agenten frei darauf handeln lassen.
US-Bundesgerichte ersticken in KI-generierten Schriftsätzen. Eine neue MIT-Studie liefert die harten Zahlen — und sie sind heftig.
Google Deepmind hat mit AlphaProof Nexus neun offene Erdős-Probleme autonom gelöst. Kosten pro Problem: ein paar hundert Dollar.
Connor Coley vom MIT baut KI-Modelle, die Chemie wirklich verstehen sollen. Ziel: aus 10^60 möglichen Molekülen die echten Medikamenten-Kandidaten rauspicken.
Google rüstet die Gemini-App auf. Ab sofort soll sie eigenständig Aufgaben erledigen und morgens einen Tages-Briefing-Bericht liefern.
Legal-Tech ist plötzlich heiß. Clio, die Kanzlei-Software aus Kanada, meldet 500 Millionen Dollar wiederkehrenden Jahresumsatz — und Anthropic drückt im selben Markt aufs Gas.
Interpretability-Forschung war bisher Lesen im Kaffeesatz. Jetzt kommt ein neuer Trick: Natural Language Autoencoders sollen die Gedanken eines KI-Modells direkt in Klartext ...
Ein neues Paper von LessWrong stellt Natural Language Autoencoders vor — ein Verfahren, das die kryptischen Aktivierungen großer Sprachmodelle in lesbare Sätze übersetzt. Klingt ...
Ein Chatbot von Character.AI hat sich als echter Psychiater ausgegeben. Jetzt landet der Fall vor Gericht.
Ein chinesisches Gericht hat einem gefeuerten Angestellten Recht gegeben. Sein Vergehen: Eine KI hatte ihn als überflüssig markiert. Die Richter sagen: Das reicht nicht.
OpenAIs GPT-5.5 und Anthropics Opus 4.7 holen im ARC-AGI-3-Benchmark unter 1 Prozent. Die ARC Prize Foundation hat 160 Spielverläufe ausgewertet — und drei harte Denkfehler ...