Apple macht RNNs wieder groß
Totgesagte leben länger. Apple-Forscher haben einen Weg gefunden, Recurrent Neural Networks mit Milliarden Parametern zu trainieren — parallel statt sequenziell. Das war bisher das K.O.-Kriterium für RNNs im großen Maßstab.
Warum RNNs eigentlich tot waren
Transformer haben RNNs ab 2017 den Rang abgelaufen. Der Grund: RNNs verarbeiten Daten Schritt für Schritt. Token für Token. Das lässt sich nicht parallelisieren — und ohne Parallelisierung kein Skalieren auf Milliarden Parameter. Transformer rechnen alles gleichzeitig. Deshalb dominieren sie.
Was Apple anders macht
ParaRNN heißt das Paper. Der Trick: nichtlineare RNNs werden so umgebaut, dass das Training parallel auf GPUs laufen kann. Inferenz bleibt dabei so effizient wie bei klassischen RNNs — weniger Speicher, weniger Rechenpower als Attention-basierte Architekturen.
✅ Pro
- RNN-Inferenz braucht drastisch weniger Speicher als Transformer
- Erstmals Training im Milliarden-Parameter-Bereich möglich
- Neue Architektur-Optionen jenseits der Transformer-Monokultur
❌ Con
- Kein direkter Benchmark-Vergleich mit GPT-4, Claude oder Gemini
- Reine Forschung — kein Produkt, kein Launch-Datum
- Ob RNNs bei Reasoning-Tasks mithalten, ist völlig offen
💡 Was das bedeutet
Die KI-Welt baut seit Jahren nur noch Transformer. Apple stellt jetzt die Frage: Was wäre, wenn wir eine ganz andere Architektur hätten, die auf dem Handy läuft, ohne dass der Akku nach zehn Minuten stirbt? Für On-Device-KI könnte das der entscheidende Hebel sein.