Suche: Pretraining

EXPERIMENTAL

Nvidia drückt KI-Training auf 4 Bit runter

Nvidia hat eine neue Pretraining-Methode vorgestellt: KI-Modelle lernen jetzt in nur 4 Bit statt der üblichen 8. Validiert wurde das Ganze an einem 12-Milliarden-Parameter-Monster ...

MarkTechPost · 2026-05-18 10:18:44.583160+00:00 · Score 6/10

FOUNDER

Altman verspricht: Neues Modell "Spud" beschleunigt die Wirtschaft

Sam Altman hat intern ein neues KI-Modell angekündigt. Codename: "Spud". Das Pretraining ist abgeschlossen — und Altman dreht am Hype-Regler.

The Decoder · 2026-03-25 14:18:44.627004+00:00 · Score 7/10

EXPERIMENTAL

Forscher tunen KI-Modelle jetzt cleverer

Ein neues Paper auf arXiv stellt FuRA vor — eine Fine-Tuning-Methode, die LoRA alt aussehen lassen will. Der Trick: Spektrale Vorkonditionierung statt blinder Gewichts-Updates.

arXiv AI/ML/NLP · 2026-05-25 10:19:59.943179+00:00 · Score 2/10

KI-CRIME

xAI klaut heimlich Claude für eigene Coding-Modelle

Elon Musks KI-Firma xAI hat monatelang Anthropics Claude angezapft, um die eigene Konkurrenz zu trainieren. Selbst nach der Zugangssperre ging das Spiel über Privat-Accounts und ...

The Decoder · 2026-06-06 13:19:52.739023+00:00 · Score 7/10

EXPERIMENTAL

Forscher knacken Time-Series-Forecasting mit Unicorn

Neues Paper auf arXiv verspricht Skalierung für Time-Series-Modelle. Der Name: Unicorn. Der Anspruch: groß.

arXiv AI/ML/NLP · 2026-06-02 04:21:28.651513+00:00 · Score 2/10

EXPERIMENTAL

Forscher zwingt Gemma 3, sich selbst zu erklären

Ein Interpretability-Experiment auf LessWrong jagt Gemmas Aktivierungen durch einen "Verbalizer" — und schaut, wo das Modell sich selbst widerspricht.

LessWrong · 2026-05-15 04:24:00.251045+00:00 · Score 2/10

EXPERIMENTAL

Aurora killt das Neuron-Sterben in Muon

Tilde Research hat einen neuen Optimizer veröffentlicht. Er repariert einen versteckten Fehler, der bisher tausende Neuronen während des Trainings stillgelegt hat.

MarkTechPost · 2026-05-12 10:20:55.695291+00:00 · Score 5/10

HOT

Microsoft baut eigene KI-Armee — 7 Modelle auf einen Schlag

Microsoft hat auf der Build-Konferenz sieben neue MAI-Modelle vorgestellt, darunter das Reasoning-Modell MAI-Thinking-1. Satya Nadella und Mustafa Suleyman haben das Line-up ...

Latent Space · 2026-06-03 07:18:28.470542+00:00 · Score 6/10

EXPERIMENTAL

EMO: Pretraining mixture of experts for emergent modularity

Hugging Face Blog · 2026-05-08 19:23:54.478680+00:00 · Score 5/10

EXPERIMENTAL

Forscher zähmen Token-Längen mit neuem Modell

Ein neues Paper auf arXiv schlägt ein Framework vor, das die Länge von KI-Antworten auf Token-Ebene vorhersagt. Klingt nerdig — könnte aber Inferenz-Kosten massiv drücken.

arXiv AI/ML/NLP · 2026-05-02 01:16:43.859932+00:00 · Score 2/10

EXPERIMENTAL

PI-JEPA simuliert Ölfelder ohne teure Trainingsdaten

Forscher haben ein KI-Modell gebaut, das komplexe Reservoir-Simulationen lernt — ohne dass man ihm erst Millionen teurer Simulationsergebnisse füttern muss.

arXiv AI/ML/NLP · 2026-04-03 10:23:04.434478+00:00 · Score 2/10

EXPERIMENTAL

Apple zeigt, wie man KI-Modelle schlauer aufteilt

Apple hat ein neues Forschungspaper vorgelegt. Thema: Wie man aus einem großen Sprachmodell mehrere spezialisierte Modelle macht — effizienter als bisher.

Apple ML Research · 2026-03-24 03:20:32.788862+00:00 · Score 3/10

EXPERIMENTAL

26M-Parameter-GPT: Training kostet 3 Yuan

Ein Chinese hat ein komplettes LLM auf GitHub gestellt — und du kannst es in zwei Stunden selbst trainieren. Auf deiner eigenen GPU. Für umgerechnet 40 Cent.

GitHub Trending Python · 2026-03-24 03:18:43.683834+00:00 · Score 3/10

AGENTS

Meta baut Trainings-Gym für KI-Agenten

PyTorch hat ein neues Open-Source-Framework auf GitHub gedroppt: OpenEnv. Damit sollen Entwickler isolierte Umgebungen bauen, in denen LLMs per Reinforcement Learning zu Agenten ...

GitHub Trending (Python/AI) · 2026-03-24 00:20:00.456749+00:00 · Score 6/10

SUCHE

Nvidia drückt KI-Training auf 4 Bit runter

Altman verspricht: Neues Modell "Spud" beschleunigt die Wirtschaft

Forscher tunen KI-Modelle jetzt cleverer

xAI klaut heimlich Claude für eigene Coding-Modelle

Forscher knacken Time-Series-Forecasting mit Unicorn

Forscher zwingt Gemma 3, sich selbst zu erklären

Aurora killt das Neuron-Sterben in Muon

Microsoft baut eigene KI-Armee — 7 Modelle auf einen Schlag

EMO: Pretraining mixture of experts for emergent modularity

Forscher zähmen Token-Längen mit neuem Modell

PI-JEPA simuliert Ölfelder ohne teure Trainingsdaten

Apple zeigt, wie man KI-Modelle schlauer aufteilt

26M-Parameter-GPT: Training kostet 3 Yuan

Meta baut Trainings-Gym für KI-Agenten