OptiMer macht Schluss mit teurem Training-Roulette
Forscher haben einen Trick gefunden, der wochenlange GPU-Verschwendung beim Feintuning von LLMs überflüssig macht. Statt ewig an Daten-Mischverhältnissen rumzuschrauben, trainieren sie einfach separate Modelle — und mergen die hinterher.
Das Problem
Wer ein großes Sprachmodell auf eine neue Sprache oder Fachdomäne anpassen will, braucht Continual Pre-Training (CPT). Dabei muss man vorher festlegen, wie viel Prozent welche Daten ausmachen. Liegt man falsch, sind Wochen Rechenzeit im Eimer.
So funktioniert OptiMer
Das Paper schlägt einen radikal einfachen Ansatz vor:
- Schritt 1:** Für jeden Datensatz ein eigenes CPT-Modell trainieren
- Schritt 2:** Aus jedem Modell einen "Distribution Vector" extrahieren — quasi der mathematische Fingerabdruck des Gelernten
- Schritt 3:** Diese Vektoren optimal zusammenführen statt die Rohdaten zu mischen
Der Clou: Die Mischverhältnisse werden erst NACH dem Training optimiert. Kein blindes Raten mehr vorher.
✅ Pro
- Entkoppelt Ratio-Suche vom Training — spart massiv GPU-Stunden
- Nachträgliche Optimierung statt teures Trial-and-Error
- Funktioniert für Sprach- und Domänenanpassung
❌ Con
- Braucht separate Trainingsläufe pro Datensatz
- Akademisches Paper ohne fertiges Tool
- Noch keine Praxistests in Produktionsumgebungen
💡 Was das bedeutet
Für Teams, die LLMs auf Deutsch, Japanisch oder Medizin-Texte anpassen, könnte das ein echter Hebel sein. Statt wochenlang Hyperparameter zu tunen, trainiert man parallel und merged danach. Das spart nicht Geld beim Training selbst — aber verhindert, dass man dreimal von vorn anfängt.