OpenAI macht GPT-3 mit Menschen im Loop gehorsamer
OpenAI hat mit InstructGPT eine neue Generation von Sprachmodellen vorgestellt, die besser auf Nutzer hören — und dabei weniger lügen und weniger Gift spucken. Gleich zwei Veröffentlichungen unterstreichen den Kurswechsel.
Was steckt dahinter?
Das Problem war simpel: GPT-3 tat, was es wollte — nicht, was der Nutzer wollte. Die Antworten waren oft neben der Spur, manchmal toxisch, manchmal frei erfunden. OpenAI hat das mit sogenanntem Alignment-Training gefixt.
- Methode:** Menschen bewerten Modell-Antworten, das Modell lernt daraus
- Ergebnis:** InstructGPT folgt Anweisungen deutlich besser als GPT-3
- Bonus:** Weniger halluzinierte Fakten, weniger problematische Inhalte
- Status:** Bereits als Standard-Modell in der OpenAI-API ausgerollt
Zwei Baustellen, ein Ziel
Neben dem Instruction-Following hat OpenAI parallel an effizienteren Trainingsmethoden gearbeitet — konkret am sogenannten Fill-in-the-Middle-Ansatz. Beide Forschungsrichtungen zielen auf dasselbe: Modelle, die nicht nur klug klingen, sondern tatsächlich nützlich sind.
Der Kern des Ganzen
Der Mensch bleibt in der Schleife. Statt ein Modell blind auf Textberge loszulassen, bewertet echtes menschliches Feedback die Ausgaben. Das klingt aufwändig — ist es auch. Aber es funktioniert offenbar besser als alles davor.