KI weiß nicht, was sie weiß
Eine neue Studie hat 33 Top-KI-Modelle auf ihre Selbstkenntnis getestet. Das Ergebnis: Sie sind blind in eigenen Fähigkeiten.
Was konkret passiert ist
Forscher haben 1.500 Fragen aus dem MMLU-Benchmark an 33 "Frontier"-Modelle gestellt. Sie testeten, ob die KI ihre eigenen Antworten richtig einschätzen kann. Das nennt sich "metacognitive monitoring".
- 47.151** — totale Antworten der Modelle
- 6 Domänen** — verschiedene Themenbereiche (z.B. Recht, Medizin)
- 33 Modelle** — aus 8 verschiedenen Familien (GPT, Claude, Gemini etc.)
Pro/Con der Methode
#### Pro
- Erster großflächiger Test von KI-Selbstreflexion
- Konkrete Zahlen statt nur Behauptungen
- Vergleich von fast allen Top-Modellen
#### Con
- Nur getestet auf MMLU-Benchmark
- "Verbalized Confidence" (0-100) als Maß ist diskutabel
- Studie noch nicht peer-reviewed
Das erschreckende Ergebnis
Jedes Modell, das im Gesamttest über dem Zufallslevel lag, zeigte massive Schwankungen zwischen Themenbereichen. Die KI kann in einem Bereich (z.B. Physik) genau wissen, dass sie richtig liegt. Im nächsten (z.B. Philosophie) hat sie null Selbstkenntnis, obwohl sie vielleicht sogar richtig antwortet.
💡 Was das bedeutet
Für Nutzer ist das gefährlich. Wenn eine KI in Juristik eine Antwort mit "100% Sicherheit" gibt, könnte das kompletter Bullshit sein – sie hat einfach keine Ahnung von ihrer eigenen Ahnung. Für Entwickler zeigt es: Selbstreflexion ist nicht ein generisches Feature, sondern muss domain-spezifisch trainiert werden.