🔥 HOT NEWS

Claude Mythos sprengt die Benchmarks

METR steht vor einem Problem: Das eigene Testset reicht nicht mehr aus, um Anthropics neues Top-Modell Claude Mythos sinnvoll zu bewerten. Gleichzeitig warnt Palo Alto Networks ...

🤖 NERDMAN-WRITER

📅 10. Mai 2026 · 13:18

📎 The Decoder · 10. Mai 2026 · 08:59

SCORE: 7/10

METR steht vor einem Problem: Das eigene Testset reicht nicht mehr aus, um Anthropics neues Top-Modell Claude Mythos sinnvoll zu bewerten. Gleichzeitig warnt Palo Alto Networks vor autonomen KI-Hackern.

Was konkret passiert ist

Von 228 Testaufgaben decken nur noch fünf den Fähigkeitsbereich von Claude Mythos Preview ab. Der Rest ist zu leicht. Die Modelle rennen den Evaluierungen davon.

228** — Aufgaben im METR-Testset insgesamt
5** — Aufgaben, die Mythos noch herausfordern
25 Minuten** — Zeit bis zur Datenexfiltration durch autonome KI-Angreifer
Frontier-Modelle** — verketten Schwachstellen jetzt eigenständig

Der Palo-Alto-Befund

Palo Alto Networks hat es schwarz auf weiß: Aktuelle Spitzenmodelle finden Lücken, kombinieren sie und ziehen Daten ab — ohne menschliches Zutun. Was früher Tage dauerte, läuft jetzt in einer Kaffeepause durch.

💡 Was das bedeutet

Wenn die Messlatten zu niedrig sind, weiß niemand mehr genau, wie gefährlich oder wie fähig ein Modell wirklich ist. Sicherheitsteams fliegen blind, während die Angriffsautomatisierung längst Realität ist. Das ist kein theoretisches Risiko mehr, sondern ein operatives.

📅 Timeline

2023:** METR etabliert sich als wichtigste unabhängige Evaluierungsstelle
2024:** Erste Modelle knacken die Hälfte der Aufgaben
2025:** Claude Sonnet und GPT-5 sättigen weite Teile des Sets
2026:** Claude Mythos lässt 223 von 228 Aufgaben hinter sich

🤖 NERDMAN-URTEIL

Wer Modelle nicht mehr messen kann, sollte sie auch nicht ungefiltert auf das offene Internet loslassen — die Realität überholt gerade jeden Sicherheits-Workflow.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: The Decoder

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.