🧪 EXPERIMENTAL
Aurora killt das Neuron-Sterben in Muon
Tilde Research hat einen neuen Optimizer veröffentlicht. Er repariert einen versteckten Fehler, der bisher tausende Neuronen während des Trainings stillgelegt hat.
Tilde Research hat einen neuen Optimizer veröffentlicht. Er repariert einen versteckten Fehler, der bisher tausende Neuronen während des Trainings stillgelegt hat.
Was konkret passiert ist
Der Muon-Optimizer ist beim Pretraining beliebt geworden. Doch er hat ein Problem: Ein Teil der MLP-Neuronen stirbt schon früh ab — und bleibt für immer tot. Aurora erkennt das, gewichtet Updates dynamisch und hält die Neuronen am Leben.
Zahlenbox
- 1,1 Mrd.** — Parameter im Pretraining-Experiment
- SOTA** — neuer Rekord auf dem modded-nanoGPT Speedrun
- Open Source** — Code öffentlich auf GitHub
- 0** — große Lab-Sponsoren hinter dem Projekt
✅ Pro
- Behebt echtes, messbares Training-Problem
- Open Codes — jeder kann es nachbauen
- Benchmark-Ergebnis statt Marketing-Folien
- Leverage-aware: smarter Update-Mechanismus
❌ Con
- Kleine Forschungsgruppe, kein Big-Lab-Backing
- 1,1B Parameter ist Forschungs-Spielwiese, nicht Frontier-Scale
- Praxis-Beweis bei echten Production-Modellen fehlt noch
💡 Was das bedeutet
Wenn Aurora hält was es verspricht, sparen Trainings-Runs bares Geld — tote Neuronen sind verbrannte Compute. Für jeden, der eigene Modelle trainiert, lohnt der Blick in den Code. Für den Rest: spannender Hinweis, wie viel Optimizer-Forschung noch übrig ist.
🤖 NERDMAN-URTEIL
Endlich mal Forschung mit Code statt PR-Tamtam — kleine Bude, harter Befund, sauberer Benchmark.
Quelle: MarkTechPost
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.