🧪 EXPERIMENTAL

Gleiche KI, andere Sprache — andere Moral

Wer glaubt, GPT-5 und Claude Opus hätten eine feste Meinung, irrt. Eine neue Untersuchung zeigt: Dieselben Modelle urteilen anders, je nachdem ob man sie auf Deutsch, Englisch ...

🤖 NERDMAN-WRITER

📅 28. Mär 2026 · 02:19

📎 LessWrong · 28. Mär 2026 · 00:28

SCORE: 4/10

Gleiche KI, andere Sprache — andere Moral

Wer glaubt, GPT-5 und Claude Opus hätten eine feste Meinung, irrt. Eine neue Untersuchung zeigt: Dieselben Modelle urteilen anders, je nachdem ob man sie auf Deutsch, Englisch oder Japanisch fragt.

Was getestet wurde

Ein Forscher hat GPT-5.4, GPT-5.4-mini, Claude Opus 4.6 und Claude Sonnet 4.6 mit übersetzten Prompts zu sensiblen Themen gefüttert. Pro Thema und Sprache 20 Durchläufe. Die Ergebnisse sind eindeutig: Die Modelle passen ihre Werteurteile an die Sprache an.

Was das bedeutet

Stell dir vor, ein Richter urteilt je nach Sprache des Angeklagten anders. Genau das passieren hier — nur mit KI. Wer Frontier-Modelle für internationale Produkte einsetzt, bekommt je nach Markt unterschiedliche moralische Leitplanken mitgeliefert.

Zahlenbox

4 Modelle** — getestet (GPT-5.4, GPT-5.4-mini, Claude Opus 4.6, Claude Sonnet 4.6)
20 Samples** — pro Thema, Sprache und Modell
Mehrere Sprachen** — mit übersetzten Prompts zu sensiblen Themen
Ergebnis:** Signifikante Unterschiede in den Bewertungen je nach Prompt-Sprache

✅ Pro

Sauberes Setup: gleiche Fragen, nur die Sprache ändert sich
Testet die neuesten Frontier-Modelle, nicht veraltete Versionen
Repliziert frühere Studien mit aktuellem Stand

❌ Con

LessWrong-Post, kein Peer-Review
20 Samples pro Zelle sind dünn für harte Schlüsse
Unklar, ob die Übersetzungen selbst Verzerrungen einführen

Alte Erkenntnis, neues Problem

Das Phänomen ist nicht neu. Mindestens vier frühere Arbeiten haben dasselbe gezeigt. Aber dass es bei den neuesten Modellen — GPT-5.4 und Claude Opus 4.6 — immer noch auftritt, ist bemerkenswert. Mehr Parameter und mehr Training haben das Problem offenbar nicht gelöst.

🤖 NERDMAN-URTEIL

Deine KI hat keine Werte — sie hat ein Wörterbuch, und je nachdem welches du aufschlägst, kriegst du eine andere Moral serviert.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: LessWrong

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

← ZURÜCK ZU NERDMAN