IBM hat Granite 4.1 veröffentlicht — die nächste Generation der Open-Weight-LLMs aus dem Big-Blue-Lager. Hugging Face hat den Aufbau jetzt im Detail dokumentiert.
Ein neues arXiv-Paper schickt Large Language Models in die Neural Architecture Search. Die Idee: Statt Menschen lassen wir die KI selbst bessere KI-Modelle entwerfen.
Ein Typ auf GitHub hat versucht, Claudes geheime Modell-Architektur nachzubauen. Ohne Paper. Ohne Leak. Nur mit Theorie und PyTorch.
Eine Forschergruppe der Hong Kong University hat DeepTutor neu aufgesetzt — komplett umgeschrieben, jetzt mit Agent-Architektur. Version 1.0.0-beta.1 ist seit dem 4. April ...
Sebastian Raschka hat seinen massiven Architektur-Vergleich großer Sprachmodelle aktualisiert. Von GPT-2 bis DeepSeek V3 und Llama 4 — alles in einer Übersicht. Neu dabei: ...
Die alten Könige der KI-Architektur melden sich zurück. Forscher entstauben LSTM-Netzwerke und bringen sie mit xLSTM in Stellung gegen die Transformer.
Ein chinesisches KI-Startup veröffentlicht ein Modell, das sich selbst weiterentwickelt hat — und liefert dabei Benchmark-Werte, die aufhorchen lassen.
Chinesisches Lab MiniMax hat am 1. Juni 2026 sein neues Flaggschiff M3 veröffentlicht. Open-Weight, multimodal, agentenfähig — und mit einer brandneuen Attention-Architektur.
Forscher haben einen neuen Encoder für brasilianisches Portugiesisch gebaut. Er heißt NorBERTo und basiert auf der ModernBERT-Architektur.
Ein Forscher hat einen Transformer dazu gebracht, sequentielle Algorithmen Schicht für Schicht abzuarbeiten. Klingt simpel. Ist es nicht.
China liefert. DeepSeek hat sein neues Flaggschiff-Modell V3 als Open-Source auf GitHub veröffentlicht — und die Architektur hat es in sich.
Große Sprachmodelle hängen an der kurzen Leine: Prefill und Decode laufen im selben Rechenzentrum, oft im selben Rack. Forscher von Moonshot AI und der Tsinghua-Universität sagen: ...
Chinesische Forscher bauen ein Text-to-Speech-System, das komplett ohne diskrete Token arbeitet. Stattdessen: durchgehende Diffusion, End-to-End, direkt von Text zu Sprache.
Alibaba hat nachgelegt. Das Qwen-Team veröffentlicht Qwen3.5-Omni — ein Modell, das Text, Bild, Audio und Video nativ verarbeitet. Kein Zusammenkleben einzelner Module mehr, ...
Die Ära des Standard-LLM wackelt. Sebastian Raschka, einer der respektiertesten ML-Forscher überhaupt, hat die wichtigsten Alternativen zum klassischen Transformer-Decoder ...
NVIDIA wirft heute gleich drei Hammer-Releases auf den Markt: Cosmos 3, Nemotron 3 Ultra und den RTX Spark. Jensen Huang meint es ernst mit der KI-Vollbedienung.
MiniMax knallt mit M3 ein Open-Weight-Modell auf den Tisch, das Coding, 1-Million-Token-Kontext und Multimodalität in eine Architektur quetscht. Die Gewichte landen in zehn Tagen ...
Ein Tutorial bei Towards AI erklärt, wie moderne militärische Aufklärung LLMs mit Knowledge Graphs und GNNs verschmilzt. Keine neue Demo, kein Release — aber ein Blick in die ...
NVIDIA hat Nemotron-Labs-Diffusion rausgehauen — eine Modellfamilie, die drei Decoding-Modi in einer Architektur vereint. Das Ergebnis: 6× mehr Tokens pro Forward-Pass als ...
Sebastian Raschka ist zurück aus der Familienpause und liefert einen Überblick, der Engineers aufhorchen lässt. Open-Weight-Modelle schrauben gerade alle am gleichen Problem: ...