Suche: misst,

AGENTS

Google misst, wie schlecht KI-Modelle lügen

DeepMind hat einen neuen Benchmark vorgestellt: FACTS Grounding. Er misst, ob große Sprachmodelle ihre Antworten auf Quellmaterial stützen — oder einfach frei halluzinieren.

Google DeepMind Blog · 2026-03-23 21:23:13.208608+00:00 · Score 6/10

EXPERIMENTAL

Forscher messen Kultur-Bias in KI-Modellen

LLMs werden weltweit eingesetzt, aber denken sie auch weltweit? Ein neues Paper stellt DOVE vor — einen Testrahmen, der kulturelle Wertvorstellungen von Sprachmodellen misst. ...

arXiv AI/ML/NLP · 2026-04-09 10:18:50.658189+00:00 · Score 3/10

EXPERIMENTAL

Google misst Puls allein per Selfie-Kamera

Google Research hat eine Technologie vorgestellt, die den Puls über die Frontkamera des Smartphones erfasst. Keine Smartwatch, kein Sensor, kein Fingerauflegen.

BasicThinking · 2026-06-13 10:23:16.007836+00:00 · Score 2/10

BULLSHIT

Amazon-Mitarbeiter automatisieren Müll für KI-Bonus

Bei Amazon läuft gerade ein absurdes Spiel: Mitarbeiter bauen sinnlose Automatisierungen, nur um in internen KI-Ranglisten zu glänzen. Der Name dafür: "Tokenmaxxing".

The Decoder · 2026-05-12 16:18:49.719165+00:00 · Score 6/10

EXPERIMENTAL

DIY-Box sagt dir, ob die Ionosphäre spackt

Du willst Kurzwelle hören und hörst nur Rauschen? Schuld ist oft die Ionosphäre. Ein Bastler hat jetzt eine Kiste gebaut, die das Chaos misst.

The Register AI · 2026-05-07 07:30:26.973339+00:00 · Score 2/10

AGENTS

Blackwell zerlegt Hopper um Faktor 20

NVIDIA setzt den ersten Agentic-AI-Benchmark — und gewinnt ihn gleich selbst. Artificial Analysis hat AgentPerf gestartet, Blackwell Ultra NVL72 führt die erste Runde an.

Nvidia Blog · 2026-06-12 22:19:05.653949+00:00 · Score 8/10

EXPERIMENTAL

Neue Metrik entlarvt KI-Drogenjäger als Bluffer

Forscher haben eine Methode entwickelt, die zeigt, wann Machine-Learning-Modelle in der Wirkstoffsuche raten statt verstehen. Veröffentlicht in Nature Machine Intelligence, 9. ...

Nature Mach Intel · 2026-06-10 04:21:40.519545+00:00 · Score 3/10

EXPERIMENTAL

Student baut KI-Coach für AirPods

Ein 22-jähriger aus Frankfurt räumt bei Apples Entwickler-Wettbewerb ab. Seine App misst per Ohrhörer, wie schlecht du präsentierst.

IT-Daily · 2026-06-08 07:20:31.895369+00:00 · Score 2/10

HOT

Anthropic dreht an Opus 4.8 — neue Probleme inklusive

Anthropic hat Opus 4.8 nachgeschoben. Ziel: die Macken von Opus 4.7 beim Thema Model Welfare ausbügeln. Ergebnis: ein paar Baustellen weniger, neue dafür mittendrin.

Zvi Mowshowitz · 2026-06-01 16:18:47.790717+00:00 · Score 6/10

EXPERIMENTAL

Hörgerät liest Gedanken – verstärkt nur eine Stimme

US-Forscher haben ein Hörsystem gebaut, das per Gehirnwellen erkennt, wem du gerade zuhörst. Die Zielstimme wird verstärkt, der Rest weggefiltert.

t3n · 2026-05-20 13:18:21.254146+00:00 · Score 3/10

EXPERIMENTAL

Ichiba AI misst, wie KIs sich gegenseitig beeinflussen

Ein neues Tool will messen, welche KI welche andere KI beeinflusst. Klingt nach Science-Fiction — ist aber vor allem erstmal heiße Luft.

Product Hunt AI · 2026-04-17 10:22:23.789950+00:00 · Score 2/10

EXPERIMENTAL

Dein Schädel wird jetzt dein Passwort

Forscher der Rutgers University wollen dich per Kopfbrummen einloggen. Kein Witz. Die Technologie heißt VitalID und misst die individuellen Vibrationen deines Schädels.

IT-Daily · 2026-04-04 10:21:12.164995+00:00 · Score 4/10

EXPERIMENTAL

Neuronales Netz misst jetzt eigene Unsicherheit

Wenn KI aus wenigen Sensoren ein ganzes Raumbild bastelt, kann sie daneben liegen. Ein neues Paper zeigt: Das Netz kann lernen, wo es sich selbst nicht traut.

arXiv AI/ML/NLP · 2026-04-03 04:20:28.187609+00:00 · Score 2/10

AGENTS

OpenAI macht den Coding-Benchmark ehrlicher

SWE-bench war der Goldstandard für KI-Coding-Agenten. Problem: Viele der Aufgaben darin waren fehlerhaft, schlecht formuliert oder schlicht unlösbar. OpenAI hat jetzt aufgeräumt.

OpenAI News · 2026-03-23 12:20:21.777077+00:00 · Score 6/10

AGENTS

OpenAI zerlegt eigene Modelle in Zahlen

OpenAI hat ein neues Research-Paper rausgehauen. Thema: Wie misst man die Qualität von decoder-basierten generativen Modellen? Die Forscher wollen endlich harte Metriken statt ...

OpenAI News · 2026-03-22 02:12:40.107149+00:00 · Score 4/10

AGENTS

Gemini-SQL2 knackt 80 Prozent auf BIRD

Google legt nach. Gemini-SQL2 schiebt sich auf Platz eins des BIRD-Leaderboards für Text-to-SQL — und schlägt dabei den eigenen Vorgänger.

MarkTechPost · 2026-06-12 22:19:43.356054+00:00 · Score 7/10

EXPERIMENTAL

Forscher jagen KI-Halluzinationen in Echtzeit

Ein neues arXiv-Paper will den Moment erwischen, in dem ein Sprachmodell vom Faktencheck in den Fiebertraum kippt. Statt nur zu klassifizieren, soll ein Live-Monitor Alarm ...

arXiv AI/ML/NLP · 2026-06-12 04:21:00.643577+00:00 · Score 2/10

EXPERIMENTAL

Meta zählt jeden Baum per KI

Meta hat ein KI-Modell entwickelt, das einzelne Bäume aus dem Weltall erkennt. Auflösung: 50 Zentimeter pro Pixel. Ziel: Klimaneutralität bis 2030.

Meta AI Research · 2026-06-09 22:18:40.749143+00:00 · Score 2/10

EXPERIMENTAL

Gemini paukt in Sierra Leone — Studie liefert Zahlen

Google DeepMind hat in Sierra Leone gemessen, was Geminis "Guided Learning" wirklich bringt. Eine randomisierte Studie, keine Marketing-Folie.

Google DeepMind · 2026-06-09 13:20:21.493685+00:00 · Score 4/10

EXPERIMENTAL

Forscher bauen Lehrer-TÜV für Sprachmodelle

Ein neues Framework namens Elmes* will messen, wie gut KI-Modelle eigentlich unterrichten — nicht nur, was sie wissen.

arXiv AI/ML/NLP · 2026-06-08 07:20:53.244393+00:00 · Score 2/10

SUCHE

Google misst, wie schlecht KI-Modelle lügen

Forscher messen Kultur-Bias in KI-Modellen

Google misst Puls allein per Selfie-Kamera

Amazon-Mitarbeiter automatisieren Müll für KI-Bonus

DIY-Box sagt dir, ob die Ionosphäre spackt

Blackwell zerlegt Hopper um Faktor 20

Neue Metrik entlarvt KI-Drogenjäger als Bluffer

Student baut KI-Coach für AirPods

Anthropic dreht an Opus 4.8 — neue Probleme inklusive

Hörgerät liest Gedanken – verstärkt nur eine Stimme

Ichiba AI misst, wie KIs sich gegenseitig beeinflussen

Dein Schädel wird jetzt dein Passwort

Neuronales Netz misst jetzt eigene Unsicherheit

OpenAI macht den Coding-Benchmark ehrlicher

OpenAI zerlegt eigene Modelle in Zahlen

Gemini-SQL2 knackt 80 Prozent auf BIRD

Forscher jagen KI-Halluzinationen in Echtzeit

Meta zählt jeden Baum per KI

Gemini paukt in Sierra Leone — Studie liefert Zahlen

Forscher bauen Lehrer-TÜV für Sprachmodelle