KI soll Hypothesen erfinden — mit 1.389 Denkspuren
Ein einzelner Forscher will Sprachmodellen beibringen, wie echte Wissenschaftler denken. Sein Werkzeug: ein Datensatz, der nicht nur Ergebnisse liefert, sondern den kompletten Denkweg von bestehendem Wissen zur neuen Hypothese.
Was CrossTrace ist
CrossTrace ist ein Datensatz mit 1.389 wissenschaftlichen Reasoning-Traces. Jeder Trace zeigt, wie aus bekanntem Wissen eine neue Hypothese entsteht — Schritt für Schritt, nicht als Black Box. Das Ding deckt drei Bereiche ab: Biomedizin, KI/ML und fachübergreifende Arbeiten.
Zahlenbox
- 1.389** — Reasoning-Traces im Datensatz
- 518** — aus der Biomedizin
- 605** — aus dem KI/ML-Bereich
- 266** — fachübergreifende Traces
- 1** — einzelner Autor hinter dem ganzen Projekt
Wie es funktioniert
Bisherige Datensätze für Hypothesen-Generierung haben ein Problem: Sie zeigen nur Eingabe und Ergebnis. Der Denkweg dazwischen fehlt. CrossTrace füllt genau diese Lücke.
Jeder Eintrag verbindet existierendes Vorwissen mit einem neuen wissenschaftlichen Beitrag. Das Modell soll nicht raten — es soll nachvollziehbar argumentieren.
✅ Pro
- Erster Datensatz mit expliziten Reasoning-Traces für Hypothesen
- Drei Domänen statt nur eine — inklusive Cross-Domain
- Nachvollziehbarkeit statt Black-Box-Output
❌ Con
- Nur 1.389 Einträge — für LLM-Training extrem wenig
- Ein-Mann-Projekt ohne institutionelle Absicherung
- Noch kein Beweis, dass Modelle damit besser werden
💡 Was das bedeutet
Wenn KI-Systeme irgendwann echte Forschungshypothesen generieren sollen, brauchen sie Trainingsdaten, die den Denkprozess abbilden — nicht nur das Ergebnis. CrossTrace ist ein erster Versuch. Ob 1.389 Beispiele reichen, um einem LLM wissenschaftliches Denken beizubringen, ist eine andere Frage.