Forscher fixen kaputtes Training für Diffusion-Modelle
Diffusion Language Models (DLMs) bekommen ein Problem gelöst, das bisher kaum jemand verstanden hat: Standard-Finetuning macht sie schlechter statt besser. Ein neues Paper zeigt warum — und wie es richtig geht.
Worum es geht
Autoregressive Modelle wie GPT lernen mit Supervised Fine-Tuning (SFT) prima dazu. Bei Diffusion-Sprachmodellen kippt das Verfahren manchmal die Performance ins Minus. Die Forscher nennen den Schuldigen: Vanilla-SFT ignoriert, was und wann ein Token überhaupt lernbar ist.
Das Kernproblem
- Maskierung:** Bei DLMs ist der Großteil des Inputs verdeckt
- Seltene Tokens:** Lassen sich kaum lernen, wenn der Kontext fehlt
- Resultat:** Das Modell rät schlechter als vorher
- Lösung im Paper:** Learnability-informed Gewichtung der Trainings-Tokens
💡 Was das bedeutet
Diffusion-Sprachmodelle gelten als die spannendste Alternative zur Autoregressive-Pipeline — schneller, parallelisierbar, theoretisch besser im Reasoning. Aber ohne funktionierendes Post-Training bleiben sie Labor-Spielzeug. Wenn dieser Fix hält, was er verspricht, wird die DLM-Forschung 2026 ernsthaft anziehen.
Wer das lesen sollte
Niemand, der heute ein Produkt baut. Alle, die in sechs Monaten wissen wollen, warum plötzlich jeder über Diffusion-LMs redet.