Apple ML Research bringt iTARFlow — eine neue Variante von Normalizing Flows. Das Ziel ist klar: Diffusion-Modellen den Bilderzeugungs-Thron streitig machen.
Das KI-Lab Zyphra hat ZAYA1-8B-Diffusion-Preview veröffentlicht. Sie haben ein normales autoregressives Sprachmodell in ein Diffusion-Modell umgewandelt — und es wird dabei bis zu ...
Diffusion-Modelle für Text sind das neue heiße Eisen. Aber sie können gefährlichen Müll produzieren. Jetzt gibt es einen neuen Ansatz, sie sicher zu machen.
Diffusion Language Models galten als lahme Enten beim Textgenerieren. Ein neues Paper aus der Forschung will das ändern — mit Geometrie statt Heuristik.
Ein neues Paper auf arXiv will Masked Diffusion Models das ständige Vergessen abgewöhnen. Die Methode heißt "Relay" — und klingt nach mehr Effizienz beim Generieren.
Nvidias Nemotron-Labs zeigt Diffusion Language Models, die Text nicht mehr Wort für Wort generieren. Statt sequenziell zu rattern, würfelt das Modell ganze Blöcke parallel ...
Ein Mathe-Paper behauptet: Attention in Transformern, Diffusion-Maps und magnetische Laplacians — alles nur Varianten derselben Markov-Geometrie. Klingt verrückt? Ist es auch.
Diffusion Language Models (DLMs) bekommen ein Problem gelöst, das bisher kaum jemand verstanden hat: Standard-Finetuning macht sie schlechter statt besser. Ein neues Paper zeigt ...
Ein neues arXiv-Paper schlägt einen simplen Trick vor, der Masked Diffusion Models (MDMs) schlauer machen soll. Der Name: Self-Conditioning Adaptation.
Together AI hat ein neues Verfahren vorgestellt, das Diffusion Transformers ohne zusätzliches Training beschleunigt. Der Name: Chipmunk. Der Trick: dynamische, spaltenweise Sparse ...
Apple ML Research zeigt STARFlow-V — einen Video-Generator, der komplett auf Normalizing Flows setzt. Kein Diffusion, kein Hype. Stattdessen Mathe.
Ein neues Framework namens DiffuJudge-AV will LLM-Judges für autonome Fahrvideos zuverlässiger machen. Der Trick: Diffusion-Logik wird auf Bewertungs-Pipelines übertragen.
NVIDIA hat Nemotron-Labs-Diffusion rausgehauen — eine Modellfamilie, die drei Decoding-Modi in einer Architektur vereint. Das Ergebnis: 6× mehr Tokens pro Forward-Pass als ...
Apple Research stellt LaDiR vor — einen neuen Reasoning-Ansatz, der das größte Problem heutiger Sprachmodelle angreift: Einmal geschriebene Tokens können nicht mehr korrigiert ...
Chinesische Forscher bauen ein Text-to-Speech-System, das komplett ohne diskrete Token arbeitet. Stattdessen: durchgehende Diffusion, End-to-End, direkt von Text zu Sprache.
Forscher haben ein Problem gelöst, das Masked Diffusion Language Models (MDLMs) bisher ausgebremst hat: Jeder Generierungsschritt brauchte das volle, fette Transformer-Modell. Das ...
Masked Diffusion Language Models generieren Text nicht Wort für Wort, sondern demaskieren ganze Sequenzen parallel. Problem: Die logisch wichtigsten Wörter kommen dabei zuletzt — ...
NVIDIA Labs hat Sana auf GitHub geworfen — eine ganze Familie von Bildgeneratoren, die schneller laufen sollen als alles, was Diffusion bisher gezeigt hat.
Forscher haben ein neues Diffusion-Model gebaut, das Moleküle generiert. Der Clou: Was rauskommt, ist garantiert chemisch valide.
Diffusion Models können Bilder erzeugen, die sie nie gesehen haben. Aber wie genau schaffen sie das? Apple hat nachgeschaut — und die Antwort ist ernüchternd komplex.