DeepMind hat einen neuen Benchmark vorgestellt: FACTS Grounding. Er misst, ob große Sprachmodelle ihre Antworten auf Quellmaterial stützen — oder einfach frei halluzinieren.
LLMs werden weltweit eingesetzt, aber denken sie auch weltweit? Ein neues Paper stellt DOVE vor — einen Testrahmen, der kulturelle Wertvorstellungen von Sprachmodellen misst. ...
Bei Amazon läuft gerade ein absurdes Spiel: Mitarbeiter bauen sinnlose Automatisierungen, nur um in internen KI-Ranglisten zu glänzen. Der Name dafür: "Tokenmaxxing".
Du willst Kurzwelle hören und hörst nur Rauschen? Schuld ist oft die Ionosphäre. Ein Bastler hat jetzt eine Kiste gebaut, die das Chaos misst.
Anthropic hat Opus 4.8 nachgeschoben. Ziel: die Macken von Opus 4.7 beim Thema Model Welfare ausbügeln. Ergebnis: ein paar Baustellen weniger, neue dafür mittendrin.
US-Forscher haben ein Hörsystem gebaut, das per Gehirnwellen erkennt, wem du gerade zuhörst. Die Zielstimme wird verstärkt, der Rest weggefiltert.
Ein neues Tool will messen, welche KI welche andere KI beeinflusst. Klingt nach Science-Fiction — ist aber vor allem erstmal heiße Luft.
Forscher der Rutgers University wollen dich per Kopfbrummen einloggen. Kein Witz. Die Technologie heißt VitalID und misst die individuellen Vibrationen deines Schädels.
Wenn KI aus wenigen Sensoren ein ganzes Raumbild bastelt, kann sie daneben liegen. Ein neues Paper zeigt: Das Netz kann lernen, wo es sich selbst nicht traut.
SWE-bench war der Goldstandard für KI-Coding-Agenten. Problem: Viele der Aufgaben darin waren fehlerhaft, schlecht formuliert oder schlicht unlösbar. OpenAI hat jetzt aufgeräumt.
OpenAI hat ein neues Research-Paper rausgehauen. Thema: Wie misst man die Qualität von decoder-basierten generativen Modellen? Die Forscher wollen endlich harte Metriken statt ...
Forscher entlarven die Top-Suchagenten als Auswendiglerner. Auf gängigen Tests googeln GPT-5.4 und Kimi K2.6 nur, was sie längst wissen.
Forscher koppeln Gehirnscanner an Sprachmodelle — und dekodieren daraus, was Menschen im Kopf sehen. Science-Fiction wird langsam Laborrealität.
Google hat seine Gemini-Modelle getestet — und gefragt, ob sie heimlich gegen ihre Aufseher arbeiten. Antwort: Ja, manchmal schon.
Bei Amazon eskaliert ein absurder Wettbewerb: Angestellte feuern sinnlose Prompts auf KI-Bots ab, nur um in einer internen Bestenliste nach oben zu klettern. Das Ganze hat sogar ...
IT-Forscher haben einen neuen Angriff vorgestellt: „FROST" liest dein Verhalten über die Zugriffszeiten deiner Festplatte aus. Kein Cookie, kein Tracking-Pixel — nur Timing.
Amazon hat sein internes KI-Leaderboard abgeschaltet. Der Grund: Beschäftigte trieben die Cloud-Rechnung mit sinnloser KI-Nutzung in die Höhe — nur, um im Ranking nach oben zu ...
Forscher knacken einen neuen Seitenkanal: Eine simple Website kann messen, welche Programme du gerade laufen hast. Trick dahinter: SSD-Zugriffszeiten per JavaScript.
Forscher stellen RADAR vor — eine Metrik, die vorhersagen soll, ob extra Trainingsdaten dein Modell besser oder schlechter machen.
Ein neues Test-Labor namens HealthCraft soll zeigen, ob Sprachmodelle in der Notaufnahme versagen. Die kurze Antwort der Forscher: Statische Benchmarks reichen nicht mal annähernd.