KI-Modelle scheitern an echten Diagrammen
14 führende KI-Modelle sollten komplexe Visualisierungen aus realen Datensätzen erzeugen. Das Ergebnis: selbst die Besten verlieren fast die Hälfte ihrer Leistung.
Was RealChart2Code testet
Der neue Benchmark schickt Modelle nicht mehr mit Spielzeug-Daten ins Rennen. Echte Datensätze, echte Komplexität, echte Diagramme. Wer hier besteht, kann tatsächlich coden — nicht nur Demos liefern.
Zahlenbox
- 14** — getestete KI-Modelle (proprietär + Open Source)
- ~50%** — Leistungsverlust der Top-Modelle gegenüber einfachen Tests
- 0** — Modelle, die souverän bestanden haben
Das Problem
Einfache Balkendiagramme? Kein Thema. Aber sobald mehrdimensionale Daten, verschachtelte Legenden oder gestapelte Visualisierungen kommen, brechen alle ein. Die Modelle produzieren Code, der zwar läuft — aber falsche oder unvollständige Charts ausspuckt.
✅ Pro
- Endlich ein Benchmark, der reale Anforderungen misst
- Deckt echte Schwächen auf statt synthetische Stärken zu feiern
- Vergleichbar über 14 Modelle hinweg
❌ Con
- Kein Modell liefert brauchbare Ergebnisse bei hoher Komplexität
- Zeigt: Coding-Benchmarks wie HumanEval waren viel zu einfach
- Für den Praxiseinsatz heißt das: Diagramme weiterhin selbst bauen
💡 Was das bedeutet
Jeder, der KI-Agenten für Datenvisualisierung oder Reporting-Pipelines baut, sollte aufhorchen. Die aktuelle Modellgeneration kann keine komplexen Charts zuverlässig generieren. Wer das in Produktion schickt, liefert fehlerhafte Dashboards.