AGENTS
Frontier-Modelle scheitern an Kinder-Puzzles
OpenAIs GPT-5.5 und Anthropics Opus 4.7 holen im ARC-AGI-3-Benchmark unter 1 Prozent. Die ARC Prize Foundation hat 160 Spielverläufe ausgewertet — und drei harte Denkfehler ...
The Decoder
· 2026-05-02 13:18:18.641242+00:00
· Score 7/10