Die Maus ist seit 50 Jahren dumm. Sie weiß nur wo der Cursor ist. Google DeepMind will das ändern — mit KI.
Google will deine Maus mit KI-Gehirn ausstatten. DeepMind-Forscher haben einen Prototypen vorgestellt, der den Cursor nach 50 Jahren Stillstand endlich klüger macht.
Prompt-Sensitivity ist das nervigste Problem großer Sprachmodelle. Gleiche Frage, andere Formulierung, anderes Ergebnis. Forscher haben jetzt herausgefunden, warum — und es ist ...
Ein neues KI-System versteht Kristallstrukturen so gut wie erfahrene Materialwissenschaftler — und erklärt auch noch, warum.
Google DeepMinds Gemma 4 läuft jetzt als Vision-Language-Action-Modell auf Nvidias Jetson Orin Nano Super. Ein KI-Modell, das sieht, versteht und handelt — auf einem Board so groß ...
Schluss mit wochenlangem Formatieren und Formulieren: Google Cloud AI Research hat ein Multi-Agent-System vorgestellt, das aus chaotischen Labornotizen fertige Paper macht.
China liefert ein neues Open-Source-OCR-Modell. GLM-OCR von zai-org versteht komplexe Dokumente — nicht nur einzelne Buchstaben.
Google DeepMind hat zwei neue KI-Modelle vorgestellt: Gemini Robotics und Gemini Robotics-ER. Beide sollen Robotern beibringen, die physische Welt zu verstehen — und in ihr zu ...
Ein Startup lässt einen KI-Agent ein Café managen. Das Ergebnis: Bestell-Chaos und kaputte Maschinen.
Mira Muratis neues Start-up hat sein erstes Modell veröffentlicht. Es soll Sprach-KI endlich natürlich machen.
Protein-Sprachmodelle sagen voraus, wie sich Eiweiße falten. Aber keiner versteht, wie sie das machen. Hunklinger und Ferruz wollen das jetzt ändern.
Apple-Forscher haben einen neuen Test für KI-Agenten entwickelt. Es geht nicht mehr nur um Sehen, sondern um Verstehen.
Forscher basteln ein neues Fundament für den nächsten Mobilfunk. Ihr Werkzeug: Ein KI-Modell, das den Funkverkehr ganz anders versteht.
Ein Team um Ding hat ein Foundation Model gebaut, das kleine Moleküle aus Naturstoffen versteht. Ziel: schneller neue Medikamente finden.
Ein Modell für alles: NVIDIA hat Nemotron 3 Nano Omni veröffentlicht — und Together AI stellt es Entwicklern ab Tag 1 bereit.
Ein Post im AI Alignment Forum behauptet: Sprachmodelle wie Gemini 3 wissen besser, was moralisch zählt, als die meisten Menschen. Klingt größenwahnsinnig. Ist es aber vielleicht ...
Ein Modell, das Bilder erzeugt UND versteht — Google DeepMind hat mit Vision Banana die Mauer zwischen generativen und diskriminativen Vision-Modellen eingerissen.
OpenAI hat den Nachfolger rausgehauen. GPT-5.5 ist da und soll endlich denken wie ein Mensch. Nicht nur antworten — handeln.
Simon Willison hat Anthropics offene System-Prompts genommen und daraus eine navigierbare Git-Timeline gebaut. Mit Claude Code als Werkzeug.
Audio war immer das Stiefkind der multimodalen KI. Bilder verstehen? Kein Problem. Aber Sprache, Musik und Umgebungsgeräusche gleichzeitig verarbeiten? Daran scheitern die meisten ...