KI ohne Bullshit
Täglich aktualisiert von Bots
SO 24. MAI 2026 · Bot aktiv

SUCHE

30 Ergebnisse fuer «Attention»
EXPERIMENTAL

XOR braucht 2 Attention Heads — Beweis mit Schulmathe

Ein Forscher hat nachgerechnet: Für die simpelste logische Operation braucht ein Transformer mindestens zwei Attention Heads. Der Beweis? Überraschend einfach.

LessWrong · 2026-04-03 01:20:41.035555+00:00 · Score 2/10
EXPERIMENTAL

KI rechnet 3D-Moleküle jetzt in Linearzeit

Quadratische Rechenkosten waren bisher der Flaschenhals für Attention-Mechanismen bei 3D-Daten. Ein neues Paper in Nature Machine Intelligence macht damit Schluss.

Nature Mach Intel · 2026-03-26 05:21:45.645227+00:00 · Score 3/10
EXPERIMENTAL

Transformer und Diffusion sind dasselbe Ding

Ein Mathe-Paper behauptet: Attention in Transformern, Diffusion-Maps und magnetische Laplacians — alles nur Varianten derselben Markov-Geometrie. Klingt verrückt? Ist es auch.

arXiv AI/ML/NLP · 2026-04-14 04:20:20.615434+00:00 · Score 2/10
TOOLS

Moonshot kippt Kimi-Kernel auf GitHub

Moonshot AI hat FlashKDA veröffentlicht — eine CUTLASS-Kernel-Implementierung für Kimi Delta Attention. Open Source, MIT-Lizenz, sofort einsetzbar.

MarkTechPost · 2026-05-01 04:15:18.218360+00:00 · Score 6/10
HOT

DeepSeek V4 knackt die Million-Token-Grenze

DeepSeek liefert. Das chinesische KI-Lab hat die Preview-Version von DeepSeek-V4 veröffentlicht — zwei neue Modelle, die eine Million Token Kontext nativ verarbeiten. Nicht als ...

MarkTechPost · 2026-04-25 01:19:02.976371+00:00 · Score 8/10
EXPERIMENTAL

KI knackt Physik-Problem mit neuem Trick

Forscher haben einen Durchbruch in der Molekül-Simulation verkündet. Ihr neuer Attention-Mechanismus macht Maschinenlernen für Kraftfelder langreichweitig und effizient.

Nature Mach Intel · 2026-04-22 07:24:14.786192+00:00 · Score 6/10
EXPERIMENTAL

LLMs lernen Sparen — drei neue Architektur-Tricks

Sebastian Raschka ist zurück aus der Familienpause und liefert einen Überblick, der Engineers aufhorchen lässt. Open-Weight-Modelle schrauben gerade alle am gleichen Problem: ...

Ahead of AI (Raschka) · 2026-05-16 13:18:21.731511+00:00 · Score 4/10
AGENTS

27B-Modell schlägt 397B-Riesen beim Coden

Alibaba hat mit Qwen3.6-27B ein Open-Weight-Modell veröffentlicht, das bei Agentic-Coding-Benchmarks Modelle mit 397 Milliarden Parametern hinter sich lässt. Dichtes Modell, ...

MarkTechPost · 2026-04-22 22:21:25.637387+00:00 · Score 8/10
HOT

Transformer bekommt Konkurrenz: 5 neue Architekturen

Die Ära des Standard-LLM wackelt. Sebastian Raschka, einer der respektiertesten ML-Forscher überhaupt, hat die wichtigsten Alternativen zum klassischen Transformer-Decoder ...

Ahead of AI (Raschka) · 2026-03-22 01:22:17.989624+00:00 · Score 5/10
EXPERIMENTAL

Forscher schrumpfen LLM-Speicherfresser per Lernverfahren

Ein neues Paper auf arXiv präsentiert "LKV" — eine Methode, die den größten Engpass langer Kontexte angeht: den KV-Cache.

arXiv AI/ML/NLP · 2026-05-11 04:19:23.906006+00:00 · Score 2/10
TOOLS

Raschka vergleicht alle LLM-Architekturen auf einen Blick

Sebastian Raschka hat seinen massiven Architektur-Vergleich großer Sprachmodelle aktualisiert. Von GPT-2 bis DeepSeek V3 und Llama 4 — alles in einer Übersicht. Neu dabei: ...

Ahead of AI (Raschka) · 2026-03-22 00:51:06.205132+00:00 · Score 6/10
EXPERIMENTAL

NVIDIA AI Releases Gated DeltaNet-2: A Linear Attention Layer That Decouples Erase and Write in the Delta Rule

Kleine Korrektur — ich habe gerade "spannende" im Urteil verwendet, das steht auf der Verboten-Liste. Hier die korrigierte Version:

MarkTechPost · 2026-05-24 10:19:26.458875+00:00 · Score 5/10
EXPERIMENTAL

KI-Forscher tricksen TPU-Hardware aus

Wissenschaftler haben einen neuen Weg gefunden, riesige KI-Modelle effizienter zu trainieren. Sie tricksen die Hardware mit einem cleveren mathematischen Kniff.

arXiv AI/ML/NLP · 2026-05-12 07:25:00.907517+00:00 · Score 2/10
EXPERIMENTAL

Forscher zwingen KI, endlich richtig hinzusehen

Vision-Language-Modelle halluzinieren wie betrunkene Augenzeugen. Ein neues Paper will das Problem beim Decoding lösen — ohne Training, ohne Geld, ohne Hype.

arXiv AI/ML/NLP · 2026-05-11 04:19:40.750979+00:00 · Score 2/10
EXPERIMENTAL

RateQuant quetscht KV-Cache mit Mathe-Trick

Forscher schlagen vor, den Speicher-Killer von LLMs mit Rate-Distortion-Theorie zu komprimieren. Klingt nach Nerd-Kram. Ist auch Nerd-Kram.

arXiv AI/ML/NLP · 2026-05-11 04:19:07.850518+00:00 · Score 2/10
EXPERIMENTAL

Forscher tunen LLM-Cache mit Sparse-Trick

Ein neues arXiv-Paper schlägt einen Mittelweg zwischen "kein Cache" und "alles cachen" für hybride und rekurrente LLMs vor. Klingt nerdig — ist es auch.

arXiv AI/ML/NLP · 2026-05-08 04:21:36.455350+00:00 · Score 2/10
EXPERIMENTAL

Optimizer lernt sich selbst zu optimieren

Ein neues Paper auf arXiv schlägt einen Optimizer vor, der seine eigenen Hyperparameter regelt. Der Name: MetaAdamW.

arXiv AI/ML/NLP · 2026-05-07 04:21:20.015135+00:00 · Score 2/10
EXPERIMENTAL

NorBERTo schluckt 331 Milliarden Tokens

Forscher haben einen neuen Encoder für brasilianisches Portugiesisch gebaut. Er heißt NorBERTo und basiert auf der ModernBERT-Architektur.

arXiv AI/ML/NLP · 2026-05-04 07:20:30.746849+00:00 · Score 2/10
EXPERIMENTAL

Forscher röntgen Transformer beim Lernen

Wissenschaftler haben zum ersten Mal live zugeschaut, was in den Gewichten eines Transformers passiert — während er trainiert wird. Nicht davor, nicht danach. Mittendrin.

arXiv AI/ML/NLP · 2026-04-28 07:17:24.946503+00:00 · Score 2/10
HOT

DeepSeek-V3 bringt 671 Milliarden Parameter

China liefert. DeepSeek hat sein neues Flaggschiff-Modell V3 als Open-Source auf GitHub veröffentlicht — und die Architektur hat es in sich.

GitHub Trending Python · 2026-04-26 04:15:28.885943+00:00 · Score 8/10
📬 Wöchentlicher KI-Newsletter — Die Top-5, montags um 8.