Ein neues Paper auf arXiv schlägt einen Optimizer vor, der seine eigenen Hyperparameter regelt. Der Name: MetaAdamW.
Neuronale Netze, die Physik simulieren sollen, sind notorisch zickig beim Training. Ein neues Paper zeigt einen simplen Fix.
Ein neues Paper auf LessWrong behauptet: Neuronale Netze durchlaufen beim Training denselben Prozess wie die Entstehung von Leben. Klingt wild. Ist es auch.
Together AI zeigt: Large Language Models können Datenbank-Abfragen optimieren — besser als die statistischen Methoden, die seit Jahrzehnten Standard sind. Bis zu 4,78x Speedup. ...
Ein Open-Source-Projekt auf GitHub verspricht: Jedes Sprachmodell lässt sich vollautomatisch "entsichern" — ohne teures Nachtraining.
Ein Open-Source-Speedrun jagt den schnellsten Trainings-Algorithmus für GPT-2-Niveau. Aktueller Rekord: 90 Sekunden auf 8 H100s.
Forscher haben das berühmte Sleeper-Agents-Experiment von Anthropic nachgebaut — und kommen zu teils gegenteiligen Ergebnissen. Die Backdoor-Forschung ist offenbar komplizierter ...
Ein Forscherteam stellt Sven vor — einen Optimierungsalgorithmus, der Neural Networks anders trainiert als alles, was bisher Standard war.