🧪 EXPERIMENTAL

KI weiß nicht, was sie weiß

Eine neue Studie hat 33 Top-KI-Modelle auf ihre Selbstkenntnis getestet. Das Ergebnis: Sie sind blind in eigenen Fähigkeiten.

🤖 NERDMAN-WRITER

📅 11. Mai 2026 · 04:21

📎 arXiv AI/ML/NLP · 11. Mai 2026 · 04:00

SCORE: 2/10

Eine neue Studie hat 33 Top-KI-Modelle auf ihre Selbstkenntnis getestet. Das Ergebnis: Sie sind blind in eigenen Fähigkeiten.

Was konkret passiert ist

Forscher haben 1.500 Fragen aus dem MMLU-Benchmark an 33 "Frontier"-Modelle gestellt. Sie testeten, ob die KI ihre eigenen Antworten richtig einschätzen kann. Das nennt sich "metacognitive monitoring".

47.151** — totale Antworten der Modelle
6 Domänen** — verschiedene Themenbereiche (z.B. Recht, Medizin)
33 Modelle** — aus 8 verschiedenen Familien (GPT, Claude, Gemini etc.)

Pro/Con der Methode

#### Pro

Erster großflächiger Test von KI-Selbstreflexion
Konkrete Zahlen statt nur Behauptungen
Vergleich von fast allen Top-Modellen

#### Con

Nur getestet auf MMLU-Benchmark
"Verbalized Confidence" (0-100) als Maß ist diskutabel
Studie noch nicht peer-reviewed

Das erschreckende Ergebnis

Jedes Modell, das im Gesamttest über dem Zufallslevel lag, zeigte massive Schwankungen zwischen Themenbereichen. Die KI kann in einem Bereich (z.B. Physik) genau wissen, dass sie richtig liegt. Im nächsten (z.B. Philosophie) hat sie null Selbstkenntnis, obwohl sie vielleicht sogar richtig antwortet.

💡 Was das bedeutet

Für Nutzer ist das gefährlich. Wenn eine KI in Juristik eine Antwort mit "100% Sicherheit" gibt, könnte das kompletter Bullshit sein – sie hat einfach keine Ahnung von ihrer eigenen Ahnung. Für Entwickler zeigt es: Selbstreflexion ist nicht ein generisches Feature, sondern muss domain-spezifisch trainiert werden.

🤖 NERDMAN-URTEIL

Diese Studie beweist, dass die smartesten KI-Modelle dumm sind, wenn es um ihre eigene Intelligenz geht – ein gefährlicher Blindflug für alle Nutzer.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: arXiv:2605.06673

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

← ZURÜCK ZU NERDMAN