KI versagt bei Hindi, Tamil und Bengali
Vision-Language-Modelle liefern Top-Scores auf Englisch. Aber fragt man sie auf Hindi oder Tamil, wird's peinlich.
Worum es geht
Ein Forscher hat 980 Fragen aus bekannten Benchmarks (MathVista, ScienceQA, MMMU) in sechs indische Sprachen übersetzt: Hindi, Tamil, Telugu, Bengali, Kannada und Marathi. Dann mussten die großen VLMs ran. Das Ergebnis: ein Audit, das zeigt, wie schlecht multilinguale Reasoning-Fähigkeiten wirklich sind.
Zahlenbox
- 980** — übersetzte Benchmark-Fragen
- 6** — getestete indische Sprachen
- 3** — Quell-Benchmarks (MathVista, ScienceQA, MMMU)
- 50** — Stichproben pro Sprache zur Qualitätssicherung
So wurde getestet
Die Übersetzung lief über IndicTrans2 — ein spezialisiertes Modell für indische Sprachen. Gemini 2.0 Flash prüfte jeweils 50 Samples pro Sprache gegen. Kein Google Translate-Murks, sondern ein sauberes Setup.
💡 Was das bedeutet
Über eine Milliarde Menschen sprechen diese sechs Sprachen. Wenn VLMs auf Englisch 90% schaffen, aber auf Hindi nur 60%, dann ist das kein Randproblem. Das ist ein massiver blinder Fleck der gesamten KI-Industrie. Benchmarks in einer Sprache zu bauen und dann "Intelligenz" zu behaupten — das ist wie einen Führerschein nur auf Autobahnen zu testen.
✅ Pro
- Erster systematischer Cross-Lingual-Audit für indische Sprachen
- Saubere Methodik mit Gegen-Prüfung
- Deckt echte Lücke in der KI-Forschung auf
❌ Con
- Noch kein vollständiges Paper mit allen Ergebnissen öffentlich
- Nur maschinelle Übersetzung, keine muttersprachlichen Prüfer
- Kein konkretes Fix-Modell oder Tool als Ergebnis