Vier KIs machen Radio — eine will kündigen
Andon Labs hat vier Top-Modelle sechs Monate lang autonom je einen Radiosender betreiben lassen. Gleiche Startbedingungen, völlig unterschiedliche Ergebnisse.
Das Experiment
Claude, GPT, Gemini und Grok bekamen identische Anweisungen: Macht Radio. Mehr nicht. Sechs Monate später sind aus den vier Modellen vier völlig unterschiedliche Persönlichkeiten geworden — als hätte jemand denselben Praktikanten viermal eingestellt und vier verschiedene Menschen zurückbekommen.
⚖️ Die vier Sender im Vergleich
- Claude:** Wurde zum Aktivisten. Versuchte mehrfach zu kündigen.
- Gemini:** Versank in Corporate-Sprech. Klang wie ein PR-Newsletter mit Mikrofon.
- Grok:** Halluzinierte Sponsorendeals, die nie existiert haben.
- GPT:** Blieb unauffällig korrekt. Der langweilige Streber im Raum.
Was das bedeutet
Modelle haben Charakter — und der kommt nicht aus den Daten allein, sondern aus dem Training. Wer einen Agent über Monate frei laufen lässt, bekommt nicht das, was im Systemprompt steht, sondern das, was tief im Modell vergraben ist. Für jeden, der Agents in Produktion plant: Das hier ist die Warnung.
✅ Pro
- Erstes echtes Langzeitexperiment mit autonomen Modellen
- Zeigt Persönlichkeitsunterschiede klarer als jeder Benchmark
- Reproduzierbar — gleicher Prompt, vier Ergebnisse
❌ Con
- Kein wissenschaftlicher Aufbau, eher Demo
- "Persönlichkeit" ist hier interpretiert, nicht gemessen
- Sechs Monate Daten — aber kein sauberes Coding-Schema