🤖 AGENTS
Frontier-Modelle scheitern an Kinder-Puzzles
OpenAIs GPT-5.5 und Anthropics Opus 4.7 holen im ARC-AGI-3-Benchmark unter 1 Prozent. Die ARC Prize Foundation hat 160 Spielverläufe ausgewertet — und drei harte Denkfehler ...
OpenAIs GPT-5.5 und Anthropics Opus 4.7 holen im ARC-AGI-3-Benchmark unter 1 Prozent. Die ARC Prize Foundation hat 160 Spielverläufe ausgewertet — und drei harte Denkfehler gefunden.
Die Zahlen
- <1 %** — Score beider Frontier-Modelle auf ARC-AGI-3
- 160** — analysierte Spielverläufe
- 2** — getestete Top-Modelle: GPT-5.5 und Opus 4.7
- 3** — systematische Fehlermuster, die sich durch alle Runs ziehen
Die drei Denkfehler
- Falsche Hypothesen festhalten:** Die Modelle erkennen Widersprüche zur eigenen Annahme — und ignorieren sie trotzdem.
- Muster halluzinieren:** Sie sehen Regeln in Zufall und bauen Strategien auf Phantasie.
- Kein echtes Lernen aus Feedback:** Negative Rückmeldungen verändern das Verhalten kaum. Trial and Error bleibt Trial.
💡 Was das bedeutet
ARC-AGI-3 testet keine Fakten, sondern Reasoning auf neuen Spielwelten. Genau hier kollabieren die Modelle, die in MMLU und SWE-Bench glänzen. Wer Agenten baut, die selbstständig in unbekannten Umgebungen handeln sollen, hat ein Problem — denn diese Aufgabe ist exakt das.
⚖️ GPT-5.5 vs. Opus 4.7
- Score:** Beide unter 1 Prozent — kein nennenswerter Unterschied
- Fehlerprofil:** Identisch in allen drei Mustern
- Konsequenz:** Skalierung allein löst das Problem nicht
🤖 NERDMAN-URTEIL
Wenn deine 200-Milliarden-Dollar-Modelle an Aufgaben scheitern, die ein Achtjähriger knackt, ist „AGI bis 2027" kein Plan, sondern ein Marketing-Stunt.
Quelle: The Decoder
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.