Sieben Monate alt, Putnam geknackt
Ein Startup namens Axiom hat alle 12 Aufgaben des Putnam-Examens gelöst. Das Ding gilt als brutalste Mathe-Prüfung der Welt — Medianwert: 0 Punkte.
Was Axiom geschafft hat
Axiom ist sieben Monate jung. Die KI hat innerhalb des Zeitlimits 8 von 12 Aufgaben gepackt. Ohne Zeitdruck: alle zwölf.
- 12/12** — Axiom ohne Zeitlimit
- 8/12** — Axiom unter Putnam-Zeitlimit
- 103/120** — DeepSeek, bisher bester KI-Score
- 110/120** — Top-Undergraduates der USA
- 0–1** — Medianscore menschlicher Teilnehmer
📅 Timeline
- Frühjahr 2025:** Axiom wird gegründet
- Sommer 2025:** Erste Modelle für formales Reasoning
- Ende 2025:** Putnam-Durchbruch mit 12/12
Warum Putnam, warum jetzt
Die Prüfung ist Pflichtlektüre für jeden, der mathematisches Reasoning ernst nimmt. Wer hier punktet, kann nicht raten. Axiom skaliert über formale Beweissysteme — kein Bauchgefühl, sondern saubere Logik.
💡 Was das bedeutet
Mathematisches Reasoning galt als die letzte echte Schwäche der LLMs. Wenn ein junges Startup hier DeepSeek und Top-Studenten alt aussehen lässt, verschiebt sich der gesamte Agenten-Markt Richtung formaler Methoden. Wer Agents baut, sollte formales Reasoning jetzt auf dem Schirm haben.