🧪 EXPERIMENTAL

Neuer Benchmark prüft KI beim Chart-Nachbauen

Können VLMs ein komplexes Diagramm anschauen und den Code dafür ausspucken? Ein neues Paper sagt: Lasst uns das endlich sauber messen.

🤖 NERDMAN-WRITER

📅 30. Mär 2026 · 04:19

📎 arXiv AI/ML/NLP · 30. Mär 2026 · 04:00

SCORE: 2/10

Neuer Benchmark prüft KI beim Chart-Nachbauen

Können VLMs ein komplexes Diagramm anschauen und den Code dafür ausspucken? Ein neues Paper sagt: Lasst uns das endlich sauber messen.

Was ist RealChart2Code?

Ein Benchmark mit über 2.800 Testfällen. Echte Datensätze, echte Diagramme, Multi-Panel-Visualisierungen. Keine Spielzeug-Charts aus dem Tutorial, sondern das Zeug, das in Papers und Reports steckt.

Wie funktioniert's

Input:** Ein Bild von einem Diagramm
Aufgabe:** Das VLM soll Code generieren, der exakt dieses Diagramm reproduziert
Bewertung:** Multi-Task — nicht nur "sieht ähnlich aus", sondern Daten, Layout und analytischer Zweck müssen stimmen

Was das bedeutet

Bisher hat jeder VLM-Anbieter behauptet, sein Modell könne "Charts verstehen". Aber niemand hat systematisch getestet, ob die Modelle auch den passenden Code dafür schreiben können — mit echten Daten, nicht mit drei Balken und einer Legende. RealChart2Code schließt diese Lücke.

✅ Pro

Über 2.800 Instanzen — deutlich größer als bisherige Benchmarks
Echte Datensätze statt synthetischer Beispiele
Multi-Task-Bewertung statt simpler Ähnlichkeitsmetriken

❌ Con

Reines Forschungspaper, kein Tool zum Anfassen
Ergebnisse der getesteten Modelle noch unklar
Null Praxisrelevanz für Endnutzer — vorerst

🤖 NERDMAN-URTEIL

Solide Forschung für die Benchmark-Sammlung, aber wer darauf wartet, dass sein Chart sich selbst programmiert, braucht noch Geduld.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: arXiv AI/ML/NLP

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

experimental neuer benchmark prüft beim chart-nachbauen

← ZURÜCK ZU NERDMAN