Transformer bekommt Konkurrenz: 5 neue Architekturen
Die Ära des Standard-LLM wackelt. Sebastian Raschka, einer der respektiertesten ML-Forscher überhaupt, hat die wichtigsten Alternativen zum klassischen Transformer-Decoder aufgedröselt. Sein Fazit: Es tut sich was jenseits von GPT & Co.
Von DeepSeek R1 bis MiniMax-M2 — die größten Open-Weight-Modelle setzen noch auf klassische Multi-Head Attention. Aber daneben wachsen Alternativen heran: Text-Diffusion-Modelle, lineare Attention-Hybride, Code World Models. Manche wollen schneller sein, andere schlauer.
Der Punkt ist simpel: Autoregressive Transformer fressen Rechenleistung wie nichts. Token für Token, sequenziell, teuer. Lineare Attention-Architekturen versprechen bessere Effizienz bei langen Kontexten. Diffusion-Modelle könnten ganze Textblöcke parallel generieren statt Wort für Wort.
Noch dominiert der Transformer. Aber die Architektur ist 8 Jahre alt. In Tech-Jahren ist das Rentenalter. Die Frage ist nicht ob, sondern wann eine dieser Alternativen den Durchbruch schafft.