🤖 AGENTS
KI-Agenten scheitern an langen Aufgaben
Microsoft-Forscher haben getestet, was passiert, wenn KI-Agenten richtig arbeiten sollen. Das Ergebnis ist peinlich.
Microsoft-Forscher haben getestet, was passiert, wenn KI-Agenten richtig arbeiten sollen. Das Ergebnis ist peinlich.
Was konkret passiert ist
Die Forscher ließen Top-Modelle wie GPT-4o und Claude Opus komplexe, langlaufende Workflows ausführen. Die Aufgaben simulierten reale Büroarbeit über mehrere Schritte hinweg. Die Agenten sollten Daten analysieren, bearbeiten und präsentieren.
Timeline des Scheiterns
- Schritt 1:** Agent erhält komplexe, mehrteilige Aufgabe.
- Schritt 2-4:** Erste Analysen und Aktionen laufen noch korrekt.
- Schritt 5+:** Fehler häufen sich, Logik bricht zusammen.
- Ende:** Das "fertige" Ergebnis ist oft unbrauchbar.
“
"Claude Cowork erledigt Aufgaben autonom. Geben Sie ihm ein Ziel und Claude arbeitet auf Ihrem Computer, mit lokalen Dateien und Anwendungen, um ein fertiges Ergebnis zu liefern."— Anthropic, Werbeversprechen für Claude
Die harten Zahlen
- 0%** — Fehlerfreie Completion bei langen Tasks
- 2-3×** — Höhere Fehlerrate bei Agenten vs. Einzel-Abfragen
- Jeder Schritt** — Erhöht die Wahrscheinlichkeit für katastrophale Fehler
💡 Was das bedeutet
Firmen, die auf automatisierte KI-Workflows setzen, kaufen sich eine tickende Zeitbombe. Je länger die Aufgabe, desto sicherer das Scheitern. Die milliardenschwere Vision vom autonomen digitalen Mitarbeiter ist aktuell reine Fantasie.
🤖 NERDMAN-URTEIL
Wer heute teure Agenten-Lizenzen für komplexe Prozesse kauft, verbrennt sein Geld mit der Effizienz eines betrunkenen Praktikanten.
Quelle: The Register AI
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.