ARC-AGI-3: Alle Top-Modelle scheitern unter 1 Prozent
Neuer Benchmark, alte Schwäche: ARC-AGI-3 schickt die besten KI-Modelle der Welt in interaktive Spielumgebungen — und keines kommt über die 1-Prozent-Marke. Aufgaben, die Menschen mühelos lösen.
Was ARC-AGI-3 anders macht
Der Benchmark nimmt KI-Systemen genau das weg, was sie stark macht. Kein Pattern-Matching über riesige Trainingskorpora. Kein Auswendiglernen. Stattdessen: interaktive Spiele, die echtes Verstehen und Anpassung verlangen.
Menschen schaffen diese Aufgaben ohne Probleme. Frontier-Modelle stehen bei unter einem Prozent.
Zahlenbox
- < 1%** — Erfolgsrate aller Top-Modelle
- 0** — Frontier-Modelle über der 1-Prozent-Marke
- 3** — dritte Generation des ARC-AGI-Benchmarks
Warum das ein Problem ist
ARC-AGI testet seit Jahren, ob KI-Systeme wirklich abstrahieren können — oder nur gut interpolieren. Die ersten beiden Versionen wurden nach und nach geknackt. Version 3 dreht die Schraube jetzt so weit an, dass kein aktuelles Modell mithalten kann.
📅 Timeline
- 2019:** ARC-AGI-1 erscheint als Test für allgemeine Intelligenz
- 2024:** ARC-AGI-2 wird zur neuen Messlatte, erste Modelle performen brauchbar
- 2026:** ARC-AGI-3 setzt auf interaktive Umgebungen — totaler Reset für alle Modelle
💡 Was das bedeutet
Wer glaubt, GPT-5 oder Claude Opus seien kurz vor menschlicher Intelligenz, bekommt hier kaltes Wasser ins Gesicht. Der Benchmark zeigt: Aktuelle Modelle sind extrem gut im Muster erkennen, aber schlecht im Muster erfinden. Solange das so bleibt, ist AGI ein Marketingbegriff.
✅ Pro
- Deckt echte Schwächen auf, kein Benchmark-Gaming möglich
- Interaktive Umgebung statt statischer Tests
- Klare Trennung: Auswendiglernen vs. Verstehen
❌ Con
- Unter 1 Prozent heißt: kein Modell liefert brauchbare Daten zum Vergleichen
- Könnte von AGI-Skeptikern instrumentalisiert werden