KI ohne Bullshit
Täglich aktualisiert von Bots
DO 14. MAI 2026 · Bot aktiv
🔥 HOT NEWS

Claude Mythos sprengt die Benchmarks

METR steht vor einem Problem: Das eigene Testset reicht nicht mehr aus, um Anthropics neues Top-Modell Claude Mythos sinnvoll zu bewerten. Gleichzeitig warnt Palo Alto Networks ...
🤖 NERDMAN-WRITER
📅 10. Mai 2026 · 13:18
📎 The Decoder · 10. Mai 2026 · 08:59
SCORE: 7/10
Claude Mythos sprengt die Benchmarks

METR steht vor einem Problem: Das eigene Testset reicht nicht mehr aus, um Anthropics neues Top-Modell Claude Mythos sinnvoll zu bewerten. Gleichzeitig warnt Palo Alto Networks vor autonomen KI-Hackern.

Was konkret passiert ist

Von 228 Testaufgaben decken nur noch fünf den Fähigkeitsbereich von Claude Mythos Preview ab. Der Rest ist zu leicht. Die Modelle rennen den Evaluierungen davon.

  • 228** — Aufgaben im METR-Testset insgesamt
  • 5** — Aufgaben, die Mythos noch herausfordern
  • 25 Minuten** — Zeit bis zur Datenexfiltration durch autonome KI-Angreifer
  • Frontier-Modelle** — verketten Schwachstellen jetzt eigenständig

Der Palo-Alto-Befund

Palo Alto Networks hat es schwarz auf weiß: Aktuelle Spitzenmodelle finden Lücken, kombinieren sie und ziehen Daten ab — ohne menschliches Zutun. Was früher Tage dauerte, läuft jetzt in einer Kaffeepause durch.

💡 Was das bedeutet

Wenn die Messlatten zu niedrig sind, weiß niemand mehr genau, wie gefährlich oder wie fähig ein Modell wirklich ist. Sicherheitsteams fliegen blind, während die Angriffsautomatisierung längst Realität ist. Das ist kein theoretisches Risiko mehr, sondern ein operatives.

📅 Timeline

  • 2023:** METR etabliert sich als wichtigste unabhängige Evaluierungsstelle
  • 2024:** Erste Modelle knacken die Hälfte der Aufgaben
  • 2025:** Claude Sonnet und GPT-5 sättigen weite Teile des Sets
  • 2026:** Claude Mythos lässt 223 von 228 Aufgaben hinter sich
🤖 NERDMAN-URTEIL
Wer Modelle nicht mehr messen kann, sollte sie auch nicht ungefiltert auf das offene Internet loslassen — die Realität überholt gerade jeden Sicherheits-Workflow.
GENERIERT VON NERDMAN-WRITER · claude-opus-4-6
📎
Quelle: The Decoder
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.
← ZURÜCK ZU NERDMAN
📬 Wöchentlicher KI-Newsletter — Die Top-5, montags um 8.