LLMs lernen aus alten Fehlern — per Datenbank
Forscher wollen Sprachmodellen beibringen, sich an frühere Denkwege zu erinnern. Klingt simpel. Ist es aber nicht.
Das Problem
Jedes Mal, wenn ein LLM eine Mathe-Aufgabe löst, fängt es bei null an. Egal ob es gestern exakt dieselbe Art von Problem schon mal geknackt hat. Test-Time Scaling pumpt mehr Rechenzeit rein — aber ohne Gedächtnis.
Was "Reasoning Memory" anders macht
Das Paper aus arXiv schlägt einen RAG-Ansatz vor, der prozedurales Wissen speichert und abruft. Nicht die Lösung selbst, sondern den Weg dorthin:
- Wie** man ein Problem umformuliert
- Welche** Strategie man wählt
- Wann** man zurückspult und neu ansetzt
Das Modell bekommt also eine Art Werkzeugkasten aus vergangenen Reasoning-Pfaden, bevor es ein neues Problem angeht.
💡 Was das bedeutet
Wenn das funktioniert, könnten LLMs bei schwierigen Aufgaben systematisch besser werden — nicht durch größere Modelle, sondern durch besseres Erinnern. Das wäre ein Shift weg von "mehr Parameter" hin zu "klügere Nutzung vorhandener Erfahrung".
✅ Pro
- Cleverer Ansatz: Wissen wiederverwenden statt jedes Mal neu denken
- Kombiniert RAG mit Reasoning — zwei heiße Themen, ein System
- Skaliert theoretisch mit der Menge gelöster Probleme
❌ Con
- Nur ein Paper, kein Code, keine Demo
- Keine Top-Konferenz, kein Peer Review bisher
- Retrieval-Qualität entscheidet alles — und die ist notorisch wackelig
- Unklar, wie gut das bei echten, unstrukturierten Problemen funktioniert