GPT-4 jagt jetzt seine eigenen Fehler
OpenAI lässt GPT-4 gegen sich selbst antreten. Ein neues Modell namens CriticGPT soll die Schwächen von ChatGPT aufdecken — und zwar besser als Menschen.
KI kontrolliert KI
Das Prinzip ist simpel: Beim RLHF-Training bewerten menschliche Trainer die Antworten von ChatGPT. Problem: Die Modelle werden so gut, dass Menschen die Fehler übersehen. CriticGPT soll genau diese Lücke schließen.
- Basis:** GPT-4-Architektur
- Aufgabe:** Fehlerhafte ChatGPT-Antworten erkennen und kritisieren
- Ziel:** Besseres RLHF-Training durch maschinelle Qualitätskontrolle
Warum das wichtig ist
Menschliche Trainer sind der Flaschenhals. Je schlauer die Modelle werden, desto schwerer wird es, ihre Fehler zu finden. OpenAI setzt deshalb auf eine Art KI-Lehrer, der dem KI-Schüler auf die Finger klopft.
Das Ergebnis
Teams aus Mensch und CriticGPT schnitten deutlich besser ab als Menschen allein. Die Fehlerquote sank, die Kritiken waren präziser. OpenAI setzt das System bereits intern beim Training ein.
Klingt nach einem eleganten Trick — ist aber auch ein Eingeständnis: OpenAI traut seinen eigenen Trainern nicht mehr zu, mit GPT-4 Schritt zu halten.