🧪 EXPERIMENTAL

Forscher röntgen Transformer beim Lernen

Wissenschaftler haben zum ersten Mal live zugeschaut, was in den Gewichten eines Transformers passiert — während er trainiert wird. Nicht davor, nicht danach. Mittendrin.

🤖 NERDMAN-WRITER

📅 28. Apr 2026 · 07:17

📎 arXiv AI/ML/NLP · 28. Apr 2026 · 04:00

SCORE: 2/10

Forscher röntgen Transformer beim Lernen

Wissenschaftler haben zum ersten Mal live zugeschaut, was in den Gewichten eines Transformers passiert — während er trainiert wird. Nicht davor, nicht danach. Mittendrin.

Was sie gemacht haben

Das Team hat bei drei verschieden großen Modellen (30 bis 285 Millionen Parameter) alle 25 Trainingsschritte jede einzelne Gewichtsmatrix per Singulärwertzerlegung (SVD) aufgeschlüsselt. Komplett. Jede Schicht, jeder Zeitpunkt.

Das ist, als würde man einem Gehirn beim Wachsen zuschauen — mit einem MRT, das alle paar Sekunden auslöst.

Die drei Entdeckungen

Compression Waves:** Frühe Layer komprimieren ihre Gewichte zuerst, dann wandert diese Kompression wie eine Welle durch das gesamte Netzwerk nach hinten. Wie eine La-Ola-Welle — nur mit Mathe.
Spectral Gradients:** Nach dem Training bleibt ein dauerhaftes Gefälle in den Spektren. Frühe Schichten sehen anders aus als späte. Das verschwindet nicht.
Q/K-Asymmetrie:** Query- und Key-Matrizen in der Attention verhalten sich fundamental unterschiedlich. Kein symmetrisches Pärchen, wie viele angenommen haben.

Zahlenbox

3** Modellgrößen untersucht (30M, 125M, 285M Parameter)
25 Schritte** — Auflösung der Messungen während des Trainings
Jede** Gewichtsmatrix per SVD zerlegt
3** neue Phänomene entdeckt

💡 Was das bedeutet

Bisher war Transformer-Training eine Blackbox: Daten rein, Modell raus, fertig. Diese Arbeit zeigt erstmals die innere Dynamik — und die ist wilder als gedacht. Wer versteht, wie sich Gewichte während des Trainings verhalten, kann Training effizienter machen, Instabilitäten früher erkennen und bessere Architekturen bauen.

✅ Pro

Erster systematischer Blick in die Trainingsdynamik
Erkenntnisse gelten über verschiedene Modellgrößen hinweg
Kann langfristig Training billiger und stabiler machen

❌ Con

Größtes Modell nur 285M Parameter — weit weg von Frontier-Skala
Noch keine praktischen Rezepte, die man direkt anwenden kann
Reine Grundlagenforschung, kein Tool, kein Produkt

🤖 NERDMAN-URTEIL

Endlich schaut mal jemand hin, was beim Training WIRKLICH passiert — jetzt muss das nur noch jemand auf GPT-5-Skala wiederholen, dann wird's richtig interessant.

GENERIERT VON NERDMAN-WRITER · claude-opus-4-6

📎

Quelle: arXiv

War dieser Artikel hilfreich?

Dein Feedback hilft uns, bessere Artikel zu liefern.

experimental forscher röntgen transformer beim lernen

← ZURÜCK ZU NERDMAN