🧪 EXPERIMENTAL
XOR braucht 2 Attention Heads — Beweis mit Schulmathe
Ein Forscher hat nachgerechnet: Für die simpelste logische Operation braucht ein Transformer mindestens zwei Attention Heads. Der Beweis? Überraschend einfach.
Ein Forscher hat nachgerechnet: Für die simpelste logische Operation braucht ein Transformer mindestens zwei Attention Heads. Der Beweis? Überraschend einfach.
Worum es geht
XOR ist die Grundschul-Logik unter den Operationen. Zwei Bits rein, eins raus. Ist beides gleich, kommt 0. Ist es unterschiedlich, kommt 1. Jeder Taschenrechner kann das.
Transformer-Modelle mit ihren Attention Heads? Die tun sich schwer damit.
Die Erkenntnis
- AND und OR:** Ein einzelner Attention Head reicht
- XOR:** Minimum zwei Attention Heads nötig
- Beweis-Level:** Oberstufen-Algebra, keine Raketenwissenschaft
- Methode:** Zwei Input-Bits werden embedded, durch Attention plus Skip Connection geschickt, dann per logistischer Regression klassifiziert
💡 Was das bedeutet
XOR ist nicht linear trennbar — das weiß jeder, der mal ein Perceptron-Diagramm gesehen hat. Dass sich dieses alte Problem direkt in die Attention-Architektur moderner Transformer übersetzt, ist ein sauberes Ergebnis. Es zeigt: Auch Milliarden-Parameter-Modelle kämpfen mit denselben mathematischen Grenzen wie ein Netz aus den 60ern.
✅ Pro
- Mathematisch sauber und nachvollziehbar
- Erklärt eine fundamentale Architektur-Grenze
- Guter Einstieg in Mechanistic Interpretability
❌ Con
- Rein theoretisch, null praktische Anwendung heute
- XOR-Problem ist seit 1969 bekannt (Minsky & Papert)
- Sagt nichts über echte LLM-Performance aus
🤖 NERDMAN-URTEIL
Schöne Mathe-Fingerübung, die zeigt, dass Transformer bei Logik-Basics dieselben Limits haben wie Perceptrons vor 57 Jahren — nur mit mehr GPUs.
Quelle: LessWrong
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.