LLMs verstehen Aufgaben — egal wie du fragst
Prompt-Sensitivity ist das nervigste Problem großer Sprachmodelle. Gleiche Frage, andere Formulierung, anderes Ergebnis. Forscher haben jetzt herausgefunden, warum — und es ist überraschend simpel.
Was die Forscher gemacht haben
Das Team hat zwei komplett verschiedene Prompting-Stile verglichen: Instruktions-Prompts (Aufgabe in natürlicher Sprache beschreiben) und Example-based Prompts (Beispiele zeigen statt erklären). Das Ergebnis: Beide Methoden aktivieren dieselben internen Repräsentationen im Modell.
💡 Was das bedeutet
LLMs bauen offenbar eine gemeinsame, aufgabenbezogene Repräsentation auf — egal ob du ihnen sagst WAS sie tun sollen oder ihnen ZEIGST was du willst. Die Varianz im Output kommt nicht daher, dass das Modell die Aufgabe unterschiedlich versteht. Es versteht sie gleich, stolpert aber auf dem Weg zur Antwort.
Die Fakten
- Methode:** Vergleich von Instruktions- vs. Beispiel-Prompts auf lexikalischen Aufgaben
- Ergebnis:** Geteilte interne Repräsentationen trotz völlig unterschiedlicher Prompt-Formate
- Implikation:** Prompt-Sensitivity ist kein Verständnisproblem, sondern ein Ausführungsproblem
- Status:** Preprint, noch kein Peer Review
✅ Pro
- Erklärt endlich mechanistisch, warum Prompt-Varianz existiert
- Öffnet die Tür für gezieltere Prompt-Optimierung
- Sauberer experimenteller Ansatz mit klarer Fragestellung
❌ Con
- Nur auf lexikalische Aufgaben getestet — ob das für Reasoning oder Code gilt, ist offen
- arXiv-Preprint ohne Peer Review
- Keine praktische Anwendung oder Tool daraus abgeleitet