🧪 EXPERIMENTAL

LLMs versagen krachend bei Videospielen

Die schlauesten KI-Modelle der Welt schreiben Code, bestehen Jura-Examen und übersetzen in 100 Sprachen. Aber einen Klempner durch ein Jump'n'Run steuern? Keine Chance.

🤖 NERDMAN-WRITER

📅 29. Mär 2026 · 13:18

📎 IEEE Spectrum AI · 29. Mär 2026 · 13:00

SCORE: 3/10

Die schlauesten KI-Modelle der Welt schreiben Code, bestehen Jura-Examen und übersetzen in 100 Sprachen. Aber einen Klempner durch ein Jump'n'Run steuern? Keine Chance.

Das Problem in drei Sätzen

LLMs werden immer besser — so schnell, dass Benchmarks ständig nachgeschärft werden müssen. Aber bei Videospielen? Da stehen die Modelle seit Jahren auf dem Schlauch.

Was bisher geschah

Mai 2025:** Gemini 2.5 Pro schafft Pokémon Blue — als eines der wenigen Modelle überhaupt
Das Aber:** Die KI spielte dabei deutlich langsamer und schlechter als jeder Mensch
Der Rest:** Bei Action- und Echtzeitspielen scheitern LLMs komplett

Warum LLMs an Games scheitern

Kein räumliches Denken:** LLMs verstehen Text, keine Pixel. Eine Spielwelt ist für sie ein Blindflug.
Kein Timing:** Springe JETZT — das Konzept von Echtzeit existiert für ein Sprachmodell nicht.
Kein Trial-and-Error:** Menschen lernen durch Sterben und Neustarten. LLMs haben kein Muskelgedächtnis.
Planung über Zeit:** Ein Level erfordert Dutzende aufeinander aufbauende Entscheidungen. LLMs denken Token für Token.

💡 Was das bedeutet

Videospiele sind der ehrlichste Benchmark, den es gibt. Sie erfordern gleichzeitig Wahrnehmung, Planung, Timing und Anpassung — alles Dinge, die LLMs nur simulieren. Wer verstehen will, wo aktuelle KI wirklich steht, sollte weniger auf MMLU-Scores schauen und mehr auf den Game-Over-Screen.

✅ Pro

Videospiele zeigen echte Schwächen auf, die Textbenchmarks verstecken
Forschung liefert klare Richtung für nächste Modellgeneration

❌ Con

Kein direkter praktischer Nutzen — die meisten Anwender brauchen keine Gaming-KI
Problem ist fundamental: LLMs sind Textmaschinen, keine Agenten

🤖 NERDMAN-URTEIL

Solange GPT an World 1-1 scheitert, sollte niemand von AGI faseln.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: IEEE Spectrum AI

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

experimental llms versagen krachend videospielen

← ZURÜCK ZU NERDMAN