OpenAI lässt KI ihre eigene Lernformel entwickeln
OpenAI hat einen neuen Metalearning-Ansatz veröffentlicht: Evolved Policy Gradients (EPG). Statt einer KI zu sagen, wie sie lernen soll, lässt man die Evolution entscheiden.
Die Loss-Funktion wird selbst gezüchtet
Normalerweise basteln Forscher mühsam an der Loss-Funktion — dem mathematischen Herzstück, das bestimmt, wie ein Agent aus Fehlern lernt. EPG dreht den Spieß um: Die Loss-Funktion wird per Evolution optimiert. Survival of the fittest, aber für Mathe-Formeln.
Das Ergebnis: Agenten, die deutlich schneller auf neue Aufgaben trainiert werden können.
Was die Agenten draufhaben
- Methode:** Evolutionäre Optimierung der Loss-Funktion statt manuelles Design
- Trick:** Der Agent lernt nicht nur eine Aufgabe, sondern lernt das Lernen selbst
- Demo:** Agenten navigieren zu Objekten, die während des Trainings an völlig anderen Positionen lagen
Ein Agent soll zu einem Objekt laufen. Im Training stand es immer links. Im Test steht es rechts. Ein normal trainierter Agent versagt. Ein EPG-Agent findet es trotzdem. Kein Auswendiglernen, sondern echte Generalisierung.
Warum das zählt
Metalearning ist der stille Bruder der großen Modell-Releases. Keine Schlagzeile, kein Chatbot, kein Abo für 200 Dollar im Monat. Aber wenn KI irgendwann wirklich flexibel werden soll, muss sie lernen können, ohne dass ein Mensch jede Stellschraube dreht.
EPG ist ein Forschungsprojekt, kein Produkt. Aber die Richtung stimmt.