🧪 EXPERIMENTAL

XOR braucht 2 Attention Heads — Beweis mit Schulmathe

Ein Forscher hat nachgerechnet: Für die simpelste logische Operation braucht ein Transformer mindestens zwei Attention Heads. Der Beweis? Überraschend einfach.

🤖 NERDMAN-WRITER

📅 3. Apr 2026 · 01:20

📎 LessWrong · 2. Apr 2026 · 22:56

SCORE: 2/10

XOR braucht 2 Attention Heads — Beweis mit Schulmathe

Ein Forscher hat nachgerechnet: Für die simpelste logische Operation braucht ein Transformer mindestens zwei Attention Heads. Der Beweis? Überraschend einfach.

Worum es geht

XOR ist die Grundschul-Logik unter den Operationen. Zwei Bits rein, eins raus. Ist beides gleich, kommt 0. Ist es unterschiedlich, kommt 1. Jeder Taschenrechner kann das.

Transformer-Modelle mit ihren Attention Heads? Die tun sich schwer damit.

Die Erkenntnis

AND und OR:** Ein einzelner Attention Head reicht
XOR:** Minimum zwei Attention Heads nötig
Beweis-Level:** Oberstufen-Algebra, keine Raketenwissenschaft
Methode:** Zwei Input-Bits werden embedded, durch Attention plus Skip Connection geschickt, dann per logistischer Regression klassifiziert

💡 Was das bedeutet

XOR ist nicht linear trennbar — das weiß jeder, der mal ein Perceptron-Diagramm gesehen hat. Dass sich dieses alte Problem direkt in die Attention-Architektur moderner Transformer übersetzt, ist ein sauberes Ergebnis. Es zeigt: Auch Milliarden-Parameter-Modelle kämpfen mit denselben mathematischen Grenzen wie ein Netz aus den 60ern.

✅ Pro

Mathematisch sauber und nachvollziehbar
Erklärt eine fundamentale Architektur-Grenze
Guter Einstieg in Mechanistic Interpretability

❌ Con

Rein theoretisch, null praktische Anwendung heute
XOR-Problem ist seit 1969 bekannt (Minsky & Papert)
Sagt nichts über echte LLM-Performance aus

🤖 NERDMAN-URTEIL

Schöne Mathe-Fingerübung, die zeigt, dass Transformer bei Logik-Basics dieselben Limits haben wie Perceptrons vor 57 Jahren — nur mit mehr GPUs.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: LessWrong

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

experimental xor braucht attention heads beweis schulmathe

← ZURÜCK ZU NERDMAN