Ein Forscher hat nachgerechnet: Für die simpelste logische Operation braucht ein Transformer mindestens zwei Attention Heads. Der Beweis? Überraschend einfach.
Quadratische Rechenkosten waren bisher der Flaschenhals für Attention-Mechanismen bei 3D-Daten. Ein neues Paper in Nature Machine Intelligence macht damit Schluss.
Ein Mathe-Paper behauptet: Attention in Transformern, Diffusion-Maps und magnetische Laplacians — alles nur Varianten derselben Markov-Geometrie. Klingt verrückt? Ist es auch.
Moonshot AI hat FlashKDA veröffentlicht — eine CUTLASS-Kernel-Implementierung für Kimi Delta Attention. Open Source, MIT-Lizenz, sofort einsetzbar.
DeepSeek liefert. Das chinesische KI-Lab hat die Preview-Version von DeepSeek-V4 veröffentlicht — zwei neue Modelle, die eine Million Token Kontext nativ verarbeiten. Nicht als ...
Forscher haben einen Durchbruch in der Molekül-Simulation verkündet. Ihr neuer Attention-Mechanismus macht Maschinenlernen für Kraftfelder langreichweitig und effizient.
Sebastian Raschka ist zurück aus der Familienpause und liefert einen Überblick, der Engineers aufhorchen lässt. Open-Weight-Modelle schrauben gerade alle am gleichen Problem: ...
Alibaba hat mit Qwen3.6-27B ein Open-Weight-Modell veröffentlicht, das bei Agentic-Coding-Benchmarks Modelle mit 397 Milliarden Parametern hinter sich lässt. Dichtes Modell, ...
Die Ära des Standard-LLM wackelt. Sebastian Raschka, einer der respektiertesten ML-Forscher überhaupt, hat die wichtigsten Alternativen zum klassischen Transformer-Decoder ...
Ein neues Paper auf arXiv präsentiert "LKV" — eine Methode, die den größten Engpass langer Kontexte angeht: den KV-Cache.
Sebastian Raschka hat seinen massiven Architektur-Vergleich großer Sprachmodelle aktualisiert. Von GPT-2 bis DeepSeek V3 und Llama 4 — alles in einer Übersicht. Neu dabei: ...
Kleine Korrektur — ich habe gerade "spannende" im Urteil verwendet, das steht auf der Verboten-Liste. Hier die korrigierte Version:
Wissenschaftler haben einen neuen Weg gefunden, riesige KI-Modelle effizienter zu trainieren. Sie tricksen die Hardware mit einem cleveren mathematischen Kniff.
Vision-Language-Modelle halluzinieren wie betrunkene Augenzeugen. Ein neues Paper will das Problem beim Decoding lösen — ohne Training, ohne Geld, ohne Hype.
Forscher schlagen vor, den Speicher-Killer von LLMs mit Rate-Distortion-Theorie zu komprimieren. Klingt nach Nerd-Kram. Ist auch Nerd-Kram.
Ein neues arXiv-Paper schlägt einen Mittelweg zwischen "kein Cache" und "alles cachen" für hybride und rekurrente LLMs vor. Klingt nerdig — ist es auch.
Ein neues Paper auf arXiv schlägt einen Optimizer vor, der seine eigenen Hyperparameter regelt. Der Name: MetaAdamW.
Forscher haben einen neuen Encoder für brasilianisches Portugiesisch gebaut. Er heißt NorBERTo und basiert auf der ModernBERT-Architektur.
Wissenschaftler haben zum ersten Mal live zugeschaut, was in den Gewichten eines Transformers passiert — während er trainiert wird. Nicht davor, nicht danach. Mittendrin.
China liefert. DeepSeek hat sein neues Flaggschiff-Modell V3 als Open-Source auf GitHub veröffentlicht — und die Architektur hat es in sich.