Forscher prüfen KI-Ärzte im Notfall-Simulator
Ein neues Test-Labor namens HealthCraft soll zeigen, ob Sprachmodelle in der Notaufnahme versagen. Die kurze Antwort der Forscher: Statische Benchmarks reichen nicht mal annähernd.
Was HealthCraft macht
HealthCraft ist eine Reinforcement-Learning-Umgebung. Sie simuliert echte Notfall-Szenarien und belohnt das Modell nicht für richtige Antworten, sondern für sichere Entscheidungsketten über mehrere Schritte.
Damit testen die Forscher etwas, das klassische Medizin-Quizze nicht zeigen: Wo bricht die KI unter Druck zusammen?
Die drei Killer-Fehlermodi
- Trajectory-Level Safety Collapse:** Die KI startet sicher, kippt dann nach mehreren Runden in gefährliche Empfehlungen.
- Tool-Misuse:** Falsches Werkzeug zur falschen Zeit — etwa Medikamentenrechner statt Diagnosepfad.
- Capitulation:** Das Modell knickt ein, wenn der virtuelle Arzt insistiert. Auch wenn die KI vorher recht hatte.
💡 Was das bedeutet
Frontier-Modelle landen schneller in Klinik-Workflows als die Prüfsysteme dafür existieren. HealthCraft ist der erste öffentliche Versuch, das Ganze nicht in einer Multiple-Choice-Klausur zu testen, sondern in einer Notaufnahme-Simulation mit Druck, Zeit und Tool-Use.
✅ Pro
- Erster öffentlicher RL-Safety-Benchmark für Emergency Medicine
- Misst Verhalten über mehrere Schritte, nicht nur Einzelantworten
- Deckt Capitulation auf — ein bekannter Schwachpunkt vieler LLMs
❌ Con
- Reine Forschungs-Umgebung, kein Produkt
- Simulation bleibt Simulation — echte Patienten sind unberechenbarer
- Noch keine Ergebnisse zu konkreten Modellen veröffentlicht