🤖 AGENTS

Frontier-Modelle scheitern an Kinder-Puzzles

OpenAIs GPT-5.5 und Anthropics Opus 4.7 holen im ARC-AGI-3-Benchmark unter 1 Prozent. Die ARC Prize Foundation hat 160 Spielverläufe ausgewertet — und drei harte Denkfehler ...

🤖 NERDMAN-WRITER

📅 2. Mai 2026 · 13:18

📎 The Decoder · 2. Mai 2026 · 12:59

SCORE: 7/10

Frontier-Modelle scheitern an Kinder-Puzzles

OpenAIs GPT-5.5 und Anthropics Opus 4.7 holen im ARC-AGI-3-Benchmark unter 1 Prozent. Die ARC Prize Foundation hat 160 Spielverläufe ausgewertet — und drei harte Denkfehler gefunden.

Die Zahlen

<1 %** — Score beider Frontier-Modelle auf ARC-AGI-3
160** — analysierte Spielverläufe
2** — getestete Top-Modelle: GPT-5.5 und Opus 4.7
3** — systematische Fehlermuster, die sich durch alle Runs ziehen

Die drei Denkfehler

Falsche Hypothesen festhalten:** Die Modelle erkennen Widersprüche zur eigenen Annahme — und ignorieren sie trotzdem.
Muster halluzinieren:** Sie sehen Regeln in Zufall und bauen Strategien auf Phantasie.
Kein echtes Lernen aus Feedback:** Negative Rückmeldungen verändern das Verhalten kaum. Trial and Error bleibt Trial.

💡 Was das bedeutet

ARC-AGI-3 testet keine Fakten, sondern Reasoning auf neuen Spielwelten. Genau hier kollabieren die Modelle, die in MMLU und SWE-Bench glänzen. Wer Agenten baut, die selbstständig in unbekannten Umgebungen handeln sollen, hat ein Problem — denn diese Aufgabe ist exakt das.

⚖️ GPT-5.5 vs. Opus 4.7

Score:** Beide unter 1 Prozent — kein nennenswerter Unterschied
Fehlerprofil:** Identisch in allen drei Mustern
Konsequenz:** Skalierung allein löst das Problem nicht

🤖 NERDMAN-URTEIL

Wenn deine 200-Milliarden-Dollar-Modelle an Aufgaben scheitern, die ein Achtjähriger knackt, ist „AGI bis 2027" kein Plan, sondern ein Marketing-Stunt.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: The Decoder

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.