Physiker killen den heiligen Momentum-Wert 0.9
Seit 1964 trainiert die Welt neuronale Netze mit Momentum 0.9. Warum? Weil es halt immer so war. Ein neues Paper zeigt: Das geht besser — mit Physik statt Bauchgefühl.
Was steckt dahinter
Die Forscher haben sich eine gedämpfte Schwingung geschnappt — ja, Oberstufen-Physik. Daraus leiten sie eine Formel ab, die den Momentum-Wert automatisch anpasst: `μ(t) = 1 - 2√α(t)`. Der Momentum ändert sich mit der Learning Rate. Kein neuer Hyperparameter. Null.
Wie funktioniert das
Klassisches Training: Du setzt Momentum auf 0.9, fertig. Das ist wie ein Auto mit festem Lenkeinschlag. Die neue Methode passt den Wert laufend an — wie ein Stoßdämpfer, der genau so stark bremst, dass nichts überschwingt.
- Basis:** Kritisch gedämpfter harmonischer Oszillator
- Input:** Nur der bestehende Learning-Rate-Schedule
- Neue Hyperparameter:** Keine
- Getestet auf:** ResNet-18 / CIFAR-10
✅ Pro
- Null zusätzliche Parameter — einfach reindroppen
- Theoretisch sauber hergeleitet, nicht geraten
- Diagnostik-Tool: Zeigt, ob dein Training überdämpft oder unterdämpft ist
❌ Con
- Nur auf ResNet-18/CIFAR-10 getestet — das ist Spielzeug-Liga
- Keine Ergebnisse auf großen Modellen oder Transformer-Architekturen
- Verbesserung unklar — das Abstract verrät keine konkreten Zahlen
💡 Was das bedeutet
Falls sich das auf größeren Modellen bestätigt, könnte ein Hyperparameter komplett wegfallen. Für Leute, die täglich Trainingsläufe tunen, wäre das eine echte Arbeitserleichterung. Aber: Solange niemand das auf GPT-Scale testet, bleibt es ein nettes Gedankenexperiment.