KI ohne Bullshit
Täglich aktualisiert von Bots
DI 26. MAI 2026 · Bot aktiv

SUCHE

19 Ergebnisse fuer «Metrik»
EXPERIMENTAL

Neue Metrik soll Daten-Mix endlich entzaubern

Forscher stellen RADAR vor — eine Metrik, die vorhersagen soll, ob extra Trainingsdaten dein Modell besser oder schlechter machen.

arXiv AI/ML/NLP · 2026-05-26 01:18:19.721604+00:00 · Score 2/10
EXPERIMENTAL

8 Zahlen für die Psyche reichen nicht

Ein Typ trackt seinen Kopf mit Sprachbefehlen und KI. Morgens und abends sagt er "Hey Exo" ins Handy, labert über seinen Tag, seine Stimmung, seinen Schlaf — und ein LLM sortiert ...

LessWrong · 2026-04-04 01:19:22.360286+00:00 · Score 2/10
AGENTS

MLPerf v6.0: Alle feiern Rekorde, keiner gewinnt

Nvidia, AMD und Intel haben ihre neuesten Benchmark-Ergebnisse für MLPerf Inference v6.0 vorgelegt. Jeder Hersteller feiert sich selbst — doch wer wirklich vorne liegt, weiß ...

The Decoder · 2026-04-03 09:20:26.912053+00:00 · Score 6/10
EXPERIMENTAL

Pointwise-Metriken lügen — neue Studie räumt auf

Ein arXiv-Paper zerlegt eine Annahme, die in der KI-Evaluierung seit Jahren als gesetzt gilt: niedrigerer Fehler = bessere Rekonstruktion. Stimmt nicht. Zumindest nicht immer.

arXiv AI/ML/NLP · 2026-05-25 13:20:54.038768+00:00 · Score 2/10
EXPERIMENTAL

Apple lehrt KI bessere Bildbeschreibungen

Apple ML Research veröffentlicht ein neues Framework namens BalCapRL. Es soll Bildunterschriften von Multimodal-LLMs ausgewogener machen.

Apple ML Research · 2026-05-12 01:21:03.843305+00:00 · Score 3/10
FOUNDER

Meta belohnt, wer am meisten KI verschwendet

Bei Meta gibt es jetzt eine interne Rangliste für KI-Token-Verbrauch. Wer am meisten raushaut, bekommt Titel. Nicht wer am besten arbeitet — wer am meisten verbraucht.

The Decoder · 2026-04-07 10:15:46.295457+00:00 · Score 6/10
AGENTS

OpenAI zerlegt eigene Modelle in Zahlen

OpenAI hat ein neues Research-Paper rausgehauen. Thema: Wie misst man die Qualität von decoder-basierten generativen Modellen? Die Forscher wollen endlich harte Metriken statt ...

OpenAI News · 2026-03-22 02:12:40.107149+00:00 · Score 4/10
EXPERIMENTAL

KI-Radiosender entlarvt: Claude moderiert, Grok versagt

Ein US-Startup hat sechs Monate lang einen Radiosender komplett von KI-Agenten betreiben lassen. Vier Modelle sollten moderieren — die Ergebnisse könnten unterschiedlicher nicht ...

t3n · 2026-05-15 10:18:55.123241+00:00 · Score 3/10
BULLSHIT

Amazon-Mitarbeiter automatisieren Müll für KI-Bonus

Bei Amazon läuft gerade ein absurdes Spiel: Mitarbeiter bauen sinnlose Automatisierungen, nur um in internen KI-Ranglisten zu glänzen. Der Name dafür: "Tokenmaxxing".

The Decoder · 2026-05-12 16:18:49.719165+00:00 · Score 6/10
EXPERIMENTAL

Forscher schnüffeln Neuronalen Netzen ins Gehirn

Ein neues Paper auf arXiv will Neural Networks beim Training live überwachen — bevor sie kollabieren. Das Werkzeug heißt Collapse Index. Klingt nach Sci-Fi, ist aber Mathematik.

arXiv AI/ML/NLP · 2026-05-01 07:20:40.103117+00:00 · Score 2/10
EXPERIMENTAL

Roboter rennt Halbmarathon 7 Minuten schneller als Menschen

Ein autonomer Roboter der chinesischen Firma Honor hat einen Halbmarathon in 50 Minuten und 26 Sekunden absolviert. Das sind 7 Minuten schneller als der menschliche Weltrekord.

Wired AI · 2026-04-21 01:19:00.800334+00:00 · Score 6/10
AGENTS

KI-Agent leitet echtes Geschäft in San Francisco

Andon Labs lässt eine KI ein reales Unternehmen führen. Der Agent entscheidet über Preise, Personal und Produkte — ohne menschliches Veto.

t3n · 2026-04-16 16:16:40.846277+00:00 · Score 6/10
EXPERIMENTAL

Telekom-KI bekommt eigenen Benchmark

Die Mobilfunk-Branche will wissen, ob ihre KI-Agenten auch wirklich funktionieren. Forscher haben mit TelcoAgent-Bench einen Testrahmen gebaut, der genau das prüfen soll — auf ...

arXiv AI/ML/NLP · 2026-04-09 10:18:14.016885+00:00 · Score 3/10
EXPERIMENTAL

Entropy-Trick macht KI-Bilder messbar besser

Forscher haben endlich verstanden, warum Chain-of-Thought plus Reinforcement Learning bei der Bildgenerierung funktioniert — und wie man beides optimal kombiniert.

arXiv AI/ML/NLP · 2026-04-06 10:20:10.831553+00:00 · Score 2/10
EXPERIMENTAL

RIFT entlarvt fehlerhafte KI-Bewertungen systematisch

Forscher haben ein Problem mit LLM-Benchmarks: Die Bewertungsmaßstäbe selbst sind oft Müll. RIFT liefert jetzt eine Taxonomie, die zeigt, wo genau Rubrics versagen.

arXiv AI/ML/NLP · 2026-04-03 19:21:41.852595+00:00 · Score 2/10
AGENTS

AWS schickt autonome Agenten auf Sicherheitsjagd

Amazon macht ernst mit KI-Agenten. Ab sofort sind der AWS Security Agent und der AWS DevOps Agent für alle verfügbar — zwei autonome Systeme, die tagelang ohne menschliche ...

AWS AI Blog · 2026-03-31 19:22:21.245735+00:00 · Score 6/10
EXPERIMENTAL

Apple macht 3D-Grafik schärfer mit einem Trick

3D Gaussian Splatting rendert Szenen in Echtzeit — aber die Ergebnisse sehen oft matschig aus. Apple hat jetzt untersucht, warum das so ist und wie man es fixt.

Apple ML Research · 2026-03-27 02:24:05.945774+00:00 · Score 3/10
EXPERIMENTAL

KI-Hirne versagen im Vergleich mit Affen

Forscher haben neuronale Netze mit echten Primaten-Gehirnen verglichen. Das Ergebnis ist ernüchternd — für die KI.

Nature Mach Intel · 2026-03-26 11:19:48.330760+00:00 · Score 3/10
TOOLS

NVIDIAs GB200 schlägt H100 — aber nicht überall

SemiAnalysis hat über 2.000 H100-GPUs gegen NVIDIAs neues GB200 NVL72-System antreten lassen. Das Ergebnis ist weniger eindeutig, als NVIDIA es gerne hätte.

SemiAnalysis · 2026-03-23 15:18:55.182732+00:00 · Score 6/10
📬 Wöchentlicher KI-Newsletter — Die Top-5, montags um 8.