Reasoning-Modelle ignorieren 75% aller Anweisungen
Die schlauen Denker-KIs können rechnen, coden, argumentieren. Aber simplen Anweisungen folgen? Fehlanzeige.
Was Together AI herausgefunden hat
Together AI hat mit "ReasonIF" einen neuen Benchmark gebaut. Der testet, ob große Reasoning-Modelle (LRMs) während des Denkprozesses tun, was man ihnen sagt. Das Ergebnis ist peinlich.
- Fehlerquote:** Über 75% der Reasoning-Anweisungen werden ignoriert
- Getestet:** Sprache, Formatierung, Textlänge
- Betroffen:** Alle führenden Reasoning-Modelle
Denken ja, zuhören nein
Die Modelle brillieren bei komplexen Aufgaben. Aber sag ihnen, sie sollen auf Deutsch antworten oder maximal 200 Wörter schreiben — und sie machen trotzdem ihr eigenes Ding. Der Denkprozess läuft wie ein Zug auf Schienen: geradeaus, egal was du rufst.
Das ist kein Randproblem. Wer Agenten baut, die mehrstufig arbeiten, braucht Modelle, die Anweisungen exakt befolgen. Jeder ignorierte Befehl in einer Chain kann das Endergebnis zerstören.
Warum das für Agenten giftig ist
Ein Agent, der seinen eigenen Reasoning-Schritten nicht die richtigen Constraints mitgibt, halluziniert nicht — er gehorcht einfach nicht. Für produktive Agent-Systeme ist das ein echtes Deployment-Risiko. Together AI liefert mit ReasonIF immerhin das Werkzeug, um das Problem messbar zu machen.