LoRA vergisst, was Menschen nicht einig sind
Überraschung aus der Forschung: Wenn du ein KI-Modell per LoRA fine-tunst, verlernt es gezielt die Beispiele, bei denen sich schon menschliche Annotatoren nicht einig waren. Kein Bug — ein Muster.
Was die Forscher herausgefunden haben
Das Team hat sechs Sprachmodelle per LoRA fine-tuned und dabei jeden einzelnen Trainingsbeispiel-Verlauf verfolgt. Ergebnis: Bei Beispielen mit hoher "Annotation Entropy" — also Sätzen, wo sich 100 menschliche Labeler nicht einig waren — steigt der Loss während des Trainings. Das Modell wird bei diesen Beispielen aktiv schlechter.
💡 Was das bedeutet
LoRA, die beliebteste Methode zum günstigen Fine-Tuning, trifft offenbar eine stille Entscheidung: Es priorisiert klare Fälle und schmeißt uneindeutige über Bord. Full Fine-Tuning zeigt dieses Verhalten kaum. Wer also mit LoRA arbeitet, muss wissen: Sein Modell optimiert sich auf den Mainstream und ignoriert die Grenzfälle.
Zahlenbox
- 6** — getestete Modelle (4 Encoder, 2 Decoder-only)
- 100** — menschliche Labels pro Beispiel (ChaosNLI-Datensatz)
- 100%** — Konsistenz: Effekt tritt bei allen sechs Modellen auf
✅ Pro
- Erstmals sauber gezeigt, dass LoRA qualitativ anders lernt als Full Fine-Tuning
- Annotation Entropy als billiger Prädiktor für Trainingsverhalten nutzbar
- Reproduzierbar über mehrere Architekturen hinweg
❌ Con
- Nur auf NLI-Daten getestet — ob das bei Code, Bildern oder Chat genauso gilt, ist offen
- Keine Lösung vorgeschlagen, nur das Problem dokumentiert
- ChaosNLI ist ein Nischen-Datensatz, nicht die reale Welt
Warum das für Praktiker relevant ist
Jeder, der LoRA-Adapter für seinen Chatbot oder Classifier baut, sollte aufhorchen. Die "contested examples" — also Daten, wo die Wahrheit nicht schwarz-weiß ist — sind oft genau die interessanten Fälle. Ironie, Sarkasmus, ambige Aussagen. LoRA rasiert die leise weg.