DeepMind hat einen neuen Benchmark vorgestellt: FACTS Grounding. Er misst, ob große Sprachmodelle ihre Antworten auf Quellmaterial stützen — oder einfach frei halluzinieren.
LLMs werden weltweit eingesetzt, aber denken sie auch weltweit? Ein neues Paper stellt DOVE vor — einen Testrahmen, der kulturelle Wertvorstellungen von Sprachmodellen misst. ...
Google Research hat eine Technologie vorgestellt, die den Puls über die Frontkamera des Smartphones erfasst. Keine Smartwatch, kein Sensor, kein Fingerauflegen.
Bei Amazon läuft gerade ein absurdes Spiel: Mitarbeiter bauen sinnlose Automatisierungen, nur um in internen KI-Ranglisten zu glänzen. Der Name dafür: "Tokenmaxxing".
Du willst Kurzwelle hören und hörst nur Rauschen? Schuld ist oft die Ionosphäre. Ein Bastler hat jetzt eine Kiste gebaut, die das Chaos misst.
NVIDIA setzt den ersten Agentic-AI-Benchmark — und gewinnt ihn gleich selbst. Artificial Analysis hat AgentPerf gestartet, Blackwell Ultra NVL72 führt die erste Runde an.
Forscher haben eine Methode entwickelt, die zeigt, wann Machine-Learning-Modelle in der Wirkstoffsuche raten statt verstehen. Veröffentlicht in Nature Machine Intelligence, 9. ...
Ein 22-jähriger aus Frankfurt räumt bei Apples Entwickler-Wettbewerb ab. Seine App misst per Ohrhörer, wie schlecht du präsentierst.
Anthropic hat Opus 4.8 nachgeschoben. Ziel: die Macken von Opus 4.7 beim Thema Model Welfare ausbügeln. Ergebnis: ein paar Baustellen weniger, neue dafür mittendrin.
US-Forscher haben ein Hörsystem gebaut, das per Gehirnwellen erkennt, wem du gerade zuhörst. Die Zielstimme wird verstärkt, der Rest weggefiltert.
Ein neues Tool will messen, welche KI welche andere KI beeinflusst. Klingt nach Science-Fiction — ist aber vor allem erstmal heiße Luft.
Forscher der Rutgers University wollen dich per Kopfbrummen einloggen. Kein Witz. Die Technologie heißt VitalID und misst die individuellen Vibrationen deines Schädels.
Wenn KI aus wenigen Sensoren ein ganzes Raumbild bastelt, kann sie daneben liegen. Ein neues Paper zeigt: Das Netz kann lernen, wo es sich selbst nicht traut.
SWE-bench war der Goldstandard für KI-Coding-Agenten. Problem: Viele der Aufgaben darin waren fehlerhaft, schlecht formuliert oder schlicht unlösbar. OpenAI hat jetzt aufgeräumt.
OpenAI hat ein neues Research-Paper rausgehauen. Thema: Wie misst man die Qualität von decoder-basierten generativen Modellen? Die Forscher wollen endlich harte Metriken statt ...
Google legt nach. Gemini-SQL2 schiebt sich auf Platz eins des BIRD-Leaderboards für Text-to-SQL — und schlägt dabei den eigenen Vorgänger.
Ein neues arXiv-Paper will den Moment erwischen, in dem ein Sprachmodell vom Faktencheck in den Fiebertraum kippt. Statt nur zu klassifizieren, soll ein Live-Monitor Alarm ...
Meta hat ein KI-Modell entwickelt, das einzelne Bäume aus dem Weltall erkennt. Auflösung: 50 Zentimeter pro Pixel. Ziel: Klimaneutralität bis 2030.
Google DeepMind hat in Sierra Leone gemessen, was Geminis "Guided Learning" wirklich bringt. Eine randomisierte Studie, keine Marketing-Folie.
Ein neues Framework namens Elmes* will messen, wie gut KI-Modelle eigentlich unterrichten — nicht nur, was sie wissen.