Suche: Attention

EXPERIMENTAL

Forscher bauen Attention nach Physik-Modell um

Ein neues arXiv-Paper schlägt vor, die Attention-Schicht von Transformern mit einem 100 Jahre alten Physik-Konzept aufzubohren. Klingt nerdig — ist es auch.

arXiv AI/ML/NLP · 2026-06-12 04:21:21.695332+00:00 · Score 2/10

EXPERIMENTAL

XOR braucht 2 Attention Heads — Beweis mit Schulmathe

Ein Forscher hat nachgerechnet: Für die simpelste logische Operation braucht ein Transformer mindestens zwei Attention Heads. Der Beweis? Überraschend einfach.

LessWrong · 2026-04-03 01:20:41.035555+00:00 · Score 2/10

EXPERIMENTAL

KI rechnet 3D-Moleküle jetzt in Linearzeit

Quadratische Rechenkosten waren bisher der Flaschenhals für Attention-Mechanismen bei 3D-Daten. Ein neues Paper in Nature Machine Intelligence macht damit Schluss.

Nature Mach Intel · 2026-03-26 05:21:45.645227+00:00 · Score 3/10

HOT

MiniMax knallt M3 raus — 1 Million Token Kontext

Chinesisches Lab MiniMax hat am 1. Juni 2026 sein neues Flaggschiff M3 veröffentlicht. Open-Weight, multimodal, agentenfähig — und mit einer brandneuen Attention-Architektur.

MarkTechPost · 2026-06-01 22:22:04.185759+00:00 · Score 7/10

EXPERIMENTAL

Forscher steuern KI über Aufmerksamkeits-Queries

Ein neues arXiv-Paper greift tief in die Eingeweide von Large Language Models. Statt am Output zu schrauben, manipulieren die Autoren direkt den Attention-Mechanismus.

arXiv AI/ML/NLP · 2026-05-26 01:20:28.399110+00:00 · Score 2/10

EXPERIMENTAL

Transformer und Diffusion sind dasselbe Ding

Ein Mathe-Paper behauptet: Attention in Transformern, Diffusion-Maps und magnetische Laplacians — alles nur Varianten derselben Markov-Geometrie. Klingt verrückt? Ist es auch.

arXiv AI/ML/NLP · 2026-04-14 04:20:20.615434+00:00 · Score 2/10

TOOLS

Together knackt 1 Million Token im Kontext

Together AI hat MiniMax-M3 in Produktion gebracht — mit einem Inferenz-Stack, der 1M-Token-Kontext nicht nur möglich, sondern bezahlbar macht. Der Blogpost liest sich wie ein ...

Together AI Blog · 2026-06-02 22:19:00.929269+00:00 · Score 6/10

TOOLS

Moonshot kippt Kimi-Kernel auf GitHub

Moonshot AI hat FlashKDA veröffentlicht — eine CUTLASS-Kernel-Implementierung für Kimi Delta Attention. Open Source, MIT-Lizenz, sofort einsetzbar.

MarkTechPost · 2026-05-01 04:15:18.218360+00:00 · Score 6/10

HOT

DeepSeek V4 knackt die Million-Token-Grenze

DeepSeek liefert. Das chinesische KI-Lab hat die Preview-Version von DeepSeek-V4 veröffentlicht — zwei neue Modelle, die eine Million Token Kontext nativ verarbeiten. Nicht als ...

MarkTechPost · 2026-04-25 01:19:02.976371+00:00 · Score 8/10

EXPERIMENTAL

KI knackt Physik-Problem mit neuem Trick

Forscher haben einen Durchbruch in der Molekül-Simulation verkündet. Ihr neuer Attention-Mechanismus macht Maschinenlernen für Kraftfelder langreichweitig und effizient.

Nature Mach Intel · 2026-04-22 07:24:14.786192+00:00 · Score 6/10

EXPERIMENTAL

LLMs lernen Sparen — drei neue Architektur-Tricks

Sebastian Raschka ist zurück aus der Familienpause und liefert einen Überblick, der Engineers aufhorchen lässt. Open-Weight-Modelle schrauben gerade alle am gleichen Problem: ...

Ahead of AI (Raschka) · 2026-05-16 13:18:21.731511+00:00 · Score 4/10

AGENTS

27B-Modell schlägt 397B-Riesen beim Coden

Alibaba hat mit Qwen3.6-27B ein Open-Weight-Modell veröffentlicht, das bei Agentic-Coding-Benchmarks Modelle mit 397 Milliarden Parametern hinter sich lässt. Dichtes Modell, ...

MarkTechPost · 2026-04-22 22:21:25.637387+00:00 · Score 8/10

HOT

Transformer bekommt Konkurrenz: 5 neue Architekturen

Die Ära des Standard-LLM wackelt. Sebastian Raschka, einer der respektiertesten ML-Forscher überhaupt, hat die wichtigsten Alternativen zum klassischen Transformer-Decoder ...

Ahead of AI (Raschka) · 2026-03-22 01:22:17.989624+00:00 · Score 5/10

EXPERIMENTAL

Zwei neue Tricks gegen halluzinierende KI

Ein Forscherteam stellt zwei neue Consistency-Training-Methoden vor. Akzeptiert auf der ICML 2026 — kein Top-Lab, aber sauber durchgezogen.

LessWrong · 2026-06-06 01:20:23.714433+00:00 · Score 2/10

HOT

MiniMax wirft M3 ins Open-Source-Rennen

MiniMax knallt mit M3 ein Open-Weight-Modell auf den Tisch, das Coding, 1-Million-Token-Kontext und Multimodalität in eine Architektur quetscht. Die Gewichte landen in zehn Tagen ...

The Decoder · 2026-06-01 13:18:20.813956+00:00 · Score 8/10

EXPERIMENTAL

Forscher schrumpfen LLM-Speicherfresser per Lernverfahren

Ein neues Paper auf arXiv präsentiert "LKV" — eine Methode, die den größten Engpass langer Kontexte angeht: den KV-Cache.

arXiv AI/ML/NLP · 2026-05-11 04:19:23.906006+00:00 · Score 2/10

TOOLS

Raschka vergleicht alle LLM-Architekturen auf einen Blick

Sebastian Raschka hat seinen massiven Architektur-Vergleich großer Sprachmodelle aktualisiert. Von GPT-2 bis DeepSeek V3 und Llama 4 — alles in einer Übersicht. Neu dabei: ...

Ahead of AI (Raschka) · 2026-03-22 00:51:06.205132+00:00 · Score 6/10

HOT

Sakana baut KI, die KI baut

Das japanische Start-up Sakana AI gründet ein eigenes Forschungslabor für rekursive Selbstverbesserung. Heißt: KI soll KI besser machen — ohne dass Menschen ständig ...

The Decoder · 2026-06-06 16:19:54.367646+00:00 · Score 6/10

EXPERIMENTAL

Forscher tricksen Transformer-Speicher mit 2-Level-Cache aus

Ein neues Paper auf arXiv will das größte Problem moderner LLMs lösen: Den explodierenden Speicherbedarf bei langem Kontext. Die Idee klaut beim Prozessor-Design.

arXiv AI/ML/NLP · 2026-05-25 13:20:14.583263+00:00 · Score 2/10

EXPERIMENTAL

NVIDIA AI Releases Gated DeltaNet-2: A Linear Attention Layer That Decouples Erase and Write in the Delta Rule

Kleine Korrektur — ich habe gerade "spannende" im Urteil verwendet, das steht auf der Verboten-Liste. Hier die korrigierte Version:

MarkTechPost · 2026-05-24 10:19:26.458875+00:00 · Score 5/10

SUCHE

Forscher bauen Attention nach Physik-Modell um

XOR braucht 2 Attention Heads — Beweis mit Schulmathe

KI rechnet 3D-Moleküle jetzt in Linearzeit

MiniMax knallt M3 raus — 1 Million Token Kontext

Forscher steuern KI über Aufmerksamkeits-Queries

Transformer und Diffusion sind dasselbe Ding

Together knackt 1 Million Token im Kontext

Moonshot kippt Kimi-Kernel auf GitHub

DeepSeek V4 knackt die Million-Token-Grenze

KI knackt Physik-Problem mit neuem Trick

LLMs lernen Sparen — drei neue Architektur-Tricks

27B-Modell schlägt 397B-Riesen beim Coden

Transformer bekommt Konkurrenz: 5 neue Architekturen

Zwei neue Tricks gegen halluzinierende KI

MiniMax wirft M3 ins Open-Source-Rennen

Forscher schrumpfen LLM-Speicherfresser per Lernverfahren

Raschka vergleicht alle LLM-Architekturen auf einen Blick

Sakana baut KI, die KI baut

Forscher tricksen Transformer-Speicher mit 2-Level-Cache aus

NVIDIA AI Releases Gated DeltaNet-2: A Linear Attention Layer That Decouples Erase and Write in the Delta Rule