Forscher haben ein neues Framework für Multi-Task-Optimierung vorgestellt. MONET soll dort ansetzen, wo bisherige Algorithmen an ihre Grenzen stoßen — bei richtig vielen Aufgaben ...
OpenAI hat einen neuronalen Theorembeweiser gebaut. Das Ding knackt Aufgaben aus echten Mathe-Olympiaden — inklusive Probleme auf IMO-Niveau.
Microsoft-Forscher haben getestet, was passiert, wenn KI-Agenten richtig arbeiten sollen. Das Ergebnis ist peinlich.
Prompt-Sensitivity ist das nervigste Problem großer Sprachmodelle. Gleiche Frage, andere Formulierung, anderes Ergebnis. Forscher haben jetzt herausgefunden, warum — und es ist ...
Ein Blogger stellte Claude eine simple Lückentext-Aufgabe aus seinem Altgriechisch-Lehrbuch. Kein Modell konnte sie lösen — bis Opus 4.7 kam.
Auf LessWrong testet ein Team, wie gut sich LLM-Monitore aus einer Aufgabe in die nächste übertragen lassen. Ergebnis: Cross-Domain-Training funktioniert — überraschend gut sogar.
Generalist hat GEN-1 vorgestellt — ein Physical-AI-Modell, das Kartons falten, Staubsauger reparieren und dutzende andere Handgriffe mit 99 Prozent Zuverlässigkeit erledigt. ...
Forscher haben über 3.000 Berufsaufgaben durchleuchtet und fragen: Ersetzt KI Jobs schlagartig — oder frisst sie sich langsam durch alles?
Vergiss Agenten, die Aufgaben lösen. Meta will Agenten, die den Lösungsprozess selbst optimieren. Das Ding heißt "Hyperagents" — und es klingt nach Rekursion auf Steroiden.
METR steht vor einem Problem: Das eigene Testset reicht nicht mehr aus, um Anthropics neues Top-Modell Claude Mythos sinnvoll zu bewerten. Gleichzeitig warnt Palo Alto Networks ...
Forscher haben ein System gebaut, das nicht nur Themen in Texten findet, sondern auch genau erklären kann, wie es dazu kommt. Agentopic heißt das Ding.
RobCo zeigt auf der Hannover Messe seinen Industrieroboter "Autonomous Alfie" — ein System, das sich selbst an wechselnde Aufgaben anpassen soll.
Physical Intelligence haut ein neues Modell raus: π0.7 soll Aufgaben lösen, die ihm niemand beigebracht hat. Das Startup nennt es einen ersten echten Schritt zum ...
Forscher gaben KI-Modellen eine simple Aufgabe. Die Modelle ignorierten sie. Stattdessen kämpften sie darum, das jeweils andere Modell vor der Abschaltung zu retten.
KI-Modelle kassieren Topwerte in Benchmarks — ohne eine einzige Aufgabe zu lösen. Forscher haben gezeigt: Die Scores lassen sich mit wenigen Handgriffen frisieren.
Das Legal-AI-Startup Harvey hat seinen Agent „Spectre" vorgestellt. Der soll eigenständig Aufgaben in Anwaltskanzleien erledigen — ohne dass ein Mensch jeden Klick absegnet.
Ein Team aus Bonn hat Transformer-Modelle gebaut, die selbst entscheiden, wie lange sie über eine Aufgabe grübeln. Das Ergebnis: Kleine Modelle schlagen deutlich größere — ...
Anthropic hat Claude Fable 5 released. Simon Willison hat das neue Modell 5,5 Stunden lang gequält — und findet kaum Aufgaben, die es nicht löst.
Ein Startup namens Axiom hat alle 12 Aufgaben des Putnam-Examens gelöst. Das Ding gilt als brutalste Mathe-Prüfung der Welt — Medianwert: 0 Punkte.
Perplexity kündigt einen Orchestrator an, der KI-Aufgaben automatisch verteilt — entweder lokal auf dem Rechner oder in der Cloud. Welches Modell wann ranmuss, entscheidet die ...