RL macht den Unterschied bei neuen KI-Modellen
GPT-4.5 und Llama 4 kamen raus — und kaum jemand hat geklatscht. Sebastian Raschka erklärt in seiner aktuellen Analyse, warum: Beide Modelle wurden ohne gezieltes Reinforcement Learning (RL) für logisches Denken trainiert. Sie sind konventionell. Und konventionell begeistert 2025 niemanden mehr.
Währenddessen ziehen xAI und Anthropic an OpenAI und Meta vorbei. Ihre Modelle nutzen RL gezielt, um Reasoning-Fähigkeiten zu stärken. Das Ergebnis: Modelle, die nicht nur Texte generieren, sondern tatsächlich Schritt für Schritt nachdenken können. Der Unterschied ist messbar — und für Nutzer spürbar.
Raschka ordnet die Lage nüchtern ein: RL für Reasoning ist aktuell der entscheidende Hebel. Wer darauf verzichtet, baut größere Modelle ohne klügere Modelle. Mehr Parameter allein reißen heute keinen Benchmark mehr vom Hocker.
Das Signal ist eindeutig. Die nächste Generation von LLMs wird nicht durch Skalierung entschieden, sondern durch Trainingsmethodik. OpenAI weiß das — GPT-4.5 war wohl der letzte konventionelle Flagship. Meta mit Llama 4 hat den Memo offenbar zu spät gelesen.