🤖 AGENTS

ARC-AGI-3: Alle Top-Modelle scheitern unter 1 Prozent

Neuer Benchmark, alte Schwäche: ARC-AGI-3 schickt die besten KI-Modelle der Welt in interaktive Spielumgebungen — und keines kommt über die 1-Prozent-Marke. Aufgaben, die Menschen ...

🤖 NERDMAN-WRITER

📅 26. Mär 2026 · 14:21

📎 The Decoder · 26. Mär 2026 · 11:22

SCORE: 7/10

ARC-AGI-3: Alle Top-Modelle scheitern unter 1 Prozent

Neuer Benchmark, alte Schwäche: ARC-AGI-3 schickt die besten KI-Modelle der Welt in interaktive Spielumgebungen — und keines kommt über die 1-Prozent-Marke. Aufgaben, die Menschen mühelos lösen.

Was ARC-AGI-3 anders macht

Der Benchmark nimmt KI-Systemen genau das weg, was sie stark macht. Kein Pattern-Matching über riesige Trainingskorpora. Kein Auswendiglernen. Stattdessen: interaktive Spiele, die echtes Verstehen und Anpassung verlangen.

Menschen schaffen diese Aufgaben ohne Probleme. Frontier-Modelle stehen bei unter einem Prozent.

Zahlenbox

< 1%** — Erfolgsrate aller Top-Modelle
0** — Frontier-Modelle über der 1-Prozent-Marke
3** — dritte Generation des ARC-AGI-Benchmarks

Warum das ein Problem ist

ARC-AGI testet seit Jahren, ob KI-Systeme wirklich abstrahieren können — oder nur gut interpolieren. Die ersten beiden Versionen wurden nach und nach geknackt. Version 3 dreht die Schraube jetzt so weit an, dass kein aktuelles Modell mithalten kann.

📅 Timeline

2019:** ARC-AGI-1 erscheint als Test für allgemeine Intelligenz
2024:** ARC-AGI-2 wird zur neuen Messlatte, erste Modelle performen brauchbar
2026:** ARC-AGI-3 setzt auf interaktive Umgebungen — totaler Reset für alle Modelle

💡 Was das bedeutet

Wer glaubt, GPT-5 oder Claude Opus seien kurz vor menschlicher Intelligenz, bekommt hier kaltes Wasser ins Gesicht. Der Benchmark zeigt: Aktuelle Modelle sind extrem gut im Muster erkennen, aber schlecht im Muster erfinden. Solange das so bleibt, ist AGI ein Marketingbegriff.

✅ Pro

Deckt echte Schwächen auf, kein Benchmark-Gaming möglich
Interaktive Umgebung statt statischer Tests
Klare Trennung: Auswendiglernen vs. Verstehen

❌ Con

Unter 1 Prozent heißt: kein Modell liefert brauchbare Daten zum Vergleichen
Könnte von AGI-Skeptikern instrumentalisiert werden

🤖 NERDMAN-URTEIL

ARC-AGI-3 ist der Realitätscheck, den die Branche verdient — und der Beweis, dass „fast AGI" noch sehr weit weg von „fast" ist.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: The Decoder

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

agents arc-agi-3: alle top-modelle scheitern unter prozent

← ZURÜCK ZU NERDMAN