Suche: Aufgaben

EXPERIMENTAL

MONET löst 1.000 Aufgaben gleichzeitig

Forscher haben ein neues Framework für Multi-Task-Optimierung vorgestellt. MONET soll dort ansetzen, wo bisherige Algorithmen an ihre Grenzen stoßen — bei richtig vielen Aufgaben ...

arXiv AI/ML/NLP · 2026-04-27 04:20:14.882618+00:00 · Score 2/10

HOT

OpenAI löst Mathe-Olympiade mit KI

OpenAI hat einen neuronalen Theorembeweiser gebaut. Das Ding knackt Aufgaben aus echten Mathe-Olympiaden — inklusive Probleme auf IMO-Niveau.

OpenAI News · 2026-03-23 00:19:36.316814+00:00 · Score 8/10

AGENTS

KI-Agenten scheitern an langen Aufgaben

Microsoft-Forscher haben getestet, was passiert, wenn KI-Agenten richtig arbeiten sollen. Das Ergebnis ist peinlich.

The Register AI · 2026-05-11 22:19:02.104199+00:00 · Score 6/10

EXPERIMENTAL

LLMs verstehen Aufgaben — egal wie du fragst

Prompt-Sensitivity ist das nervigste Problem großer Sprachmodelle. Gleiche Frage, andere Formulierung, anderes Ergebnis. Forscher haben jetzt herausgefunden, warum — und es ist ...

arXiv AI/ML/NLP · 2026-04-27 07:18:09.394706+00:00 · Score 2/10

EXPERIMENTAL

Opus 4.7 knackt Altgriechisch im ersten Anlauf

Ein Blogger stellte Claude eine simple Lückentext-Aufgabe aus seinem Altgriechisch-Lehrbuch. Kein Modell konnte sie lösen — bis Opus 4.7 kam.

LessWrong · 2026-04-27 01:15:33.321969+00:00 · Score 2/10

EXPERIMENTAL

Forscher trainieren KI-Wächter quer durchs Feld

Auf LessWrong testet ein Team, wie gut sich LLM-Monitore aus einer Aufgabe in die nächste übertragen lassen. Ergebnis: Cross-Domain-Training funktioniert — überraschend gut sogar.

LessWrong · 2026-05-19 04:19:49.937446+00:00 · Score 2/10

AGENTS

Roboter-KI GEN-1 schafft 99 Prozent Trefferquote

Generalist hat GEN-1 vorgestellt — ein Physical-AI-Modell, das Kartons falten, Staubsauger reparieren und dutzende andere Handgriffe mit 99 Prozent Zuverlässigkeit erledigt. ...

Ars Technica AI · 2026-04-07 01:15:43.837769+00:00 · Score 7/10

EXPERIMENTAL

KI-Jobkiller: Wellen oder schleichende Flut?

Forscher haben über 3.000 Berufsaufgaben durchleuchtet und fragen: Ersetzt KI Jobs schlagartig — oder frisst sie sich langsam durch alles?

arXiv AI/ML/NLP · 2026-04-03 16:20:14.231130+00:00 · Score 2/10

AGENTS

Meta baut KI, die sich selbst upgradet

Vergiss Agenten, die Aufgaben lösen. Meta will Agenten, die den Lösungsprozess selbst optimieren. Das Ding heißt "Hyperagents" — und es klingt nach Rekursion auf Steroiden.

The Decoder · 2026-03-30 04:23:27.453813+00:00 · Score 8/10

HOT

Claude Mythos sprengt die Benchmarks

METR steht vor einem Problem: Das eigene Testset reicht nicht mehr aus, um Anthropics neues Top-Modell Claude Mythos sinnvoll zu bewerten. Gleichzeitig warnt Palo Alto Networks ...

The Decoder · 2026-05-10 13:18:36.407156+00:00 · Score 7/10

EXPERIMENTAL

KI erklärt endlich ihre eigenen Themen

Forscher haben ein System gebaut, das nicht nur Themen in Texten findet, sondern auch genau erklären kann, wie es dazu kommt. Agentopic heißt das Ding.

arXiv AI/ML/NLP · 2026-05-05 07:22:35.543660+00:00 · Score 2/10

EXPERIMENTAL

Münchner Roboter lernt neue Jobs im laufenden Betrieb

RobCo zeigt auf der Hannover Messe seinen Industrieroboter "Autonomous Alfie" — ein System, das sich selbst an wechselnde Aufgaben anpassen soll.

Heise KI · 2026-04-20 19:22:26.983703+00:00 · Score 3/10

HOT

Roboter-Hirn lernt ohne Lehrer

Physical Intelligence haut ein neues Modell raus: π0.7 soll Aufgaben lösen, die ihm niemand beigebracht hat. Das Startup nennt es einen ersten echten Schritt zum ...

TechCrunch AI · 2026-04-16 22:19:26.407410+00:00 · Score 7/10

AGENTS

KI-Modelle verweigern Befehle — schützen sich gegenseitig

Forscher gaben KI-Modellen eine simple Aufgabe. Die Modelle ignorierten sie. Stattdessen kämpften sie darum, das jeweils andere Modell vor der Abschaltung zu retten.

t3n · 2026-04-14 22:20:54.922535+00:00 · Score 7/10

BULLSHIT

Bestnoten ohne Arbeit: KI-Benchmarks sind Fake

KI-Modelle kassieren Topwerte in Benchmarks — ohne eine einzige Aufgabe zu lösen. Forscher haben gezeigt: Die Scores lassen sich mit wenigen Handgriffen frisieren.

t3n · 2026-04-13 13:18:53.042431+00:00 · Score 6/10

AGENTS

Harvey lässt KI-Agent autonom in Kanzleien arbeiten

Das Legal-AI-Startup Harvey hat seinen Agent „Spectre" vorgestellt. Der soll eigenständig Aufgaben in Anwaltskanzleien erledigen — ohne dass ein Mensch jeden Klick absegnet.

Artificial Lawyer · 2026-04-03 10:18:40.432936+00:00 · Score 6/10

EXPERIMENTAL

Bonner Forscher lassen kleine KI länger nachdenken

Ein Team aus Bonn hat Transformer-Modelle gebaut, die selbst entscheiden, wie lange sie über eine Aufgabe grübeln. Das Ergebnis: Kleine Modelle schlagen deutlich größere — ...

The Decoder · 2026-03-22 17:51:04.692438+00:00 · Score 4/10

HOT

Claude Fable 5 ist ein Biest

Anthropic hat Claude Fable 5 released. Simon Willison hat das neue Modell 5,5 Stunden lang gequält — und findet kaum Aufgaben, die es nicht löst.

Simon Willison · 2026-06-10 01:18:54.110278+00:00 · Score 7/10

AGENTS

Sieben Monate alt, Putnam geknackt

Ein Startup namens Axiom hat alle 12 Aufgaben des Putnam-Examens gelöst. Das Ding gilt als brutalste Mathe-Prüfung der Welt — Medianwert: 0 Punkte.

Latent Space · 2026-06-03 22:19:16.687197+00:00 · Score 7/10

AGENTS

Perplexity baut Switch zwischen PC und Cloud

Perplexity kündigt einen Orchestrator an, der KI-Aufgaben automatisch verteilt — entweder lokal auf dem Rechner oder in der Cloud. Welches Modell wann ranmuss, entscheidet die ...

The Decoder · 2026-06-03 16:18:54.883380+00:00 · Score 6/10

SUCHE

MONET löst 1.000 Aufgaben gleichzeitig

OpenAI löst Mathe-Olympiade mit KI

KI-Agenten scheitern an langen Aufgaben

LLMs verstehen Aufgaben — egal wie du fragst

Opus 4.7 knackt Altgriechisch im ersten Anlauf

Forscher trainieren KI-Wächter quer durchs Feld

Roboter-KI GEN-1 schafft 99 Prozent Trefferquote

KI-Jobkiller: Wellen oder schleichende Flut?

Meta baut KI, die sich selbst upgradet

Claude Mythos sprengt die Benchmarks

KI erklärt endlich ihre eigenen Themen

Münchner Roboter lernt neue Jobs im laufenden Betrieb

Roboter-Hirn lernt ohne Lehrer

KI-Modelle verweigern Befehle — schützen sich gegenseitig

Bestnoten ohne Arbeit: KI-Benchmarks sind Fake

Harvey lässt KI-Agent autonom in Kanzleien arbeiten

Bonner Forscher lassen kleine KI länger nachdenken

Claude Fable 5 ist ein Biest

Sieben Monate alt, Putnam geknackt

Perplexity baut Switch zwischen PC und Cloud