OpenAI ließ GPT Pixel statt Wörter fressen
OpenAI hat einen Transformer — ja, das Ding hinter ChatGPT — einfach auf rohe Pixel losgelassen. Ergebnis: Das Modell erzeugt Bilder, die Sinn ergeben. Ganz ohne Faltungsnetzwerke.
Sprache raus, Pixel rein
Die Idee ist brutal simpel. Statt Wort-Tokens bekommt das Modell Pixel-Sequenzen. Dann soll es das Bild vervollständigen — wie ein Lückentext, nur visuell.
- Architektur:** Standard-Transformer, keine Spezialanpassung
- Training:** Pixel-Sequenzen statt Text-Tokens
- Output:** Bildvervollständigungen und komplett neue Samples
ConvNets bekommen Konkurrenz
Das Bemerkenswerte: Die gelernten Features schlagen sich im Benchmark gegen die besten Convolutional Networks. Ohne Labels, rein unüberwacht. OpenAI zeigt damit eine direkte Korrelation zwischen Bildqualität und Klassifikations-Genauigkeit.
Ein Haken hat die Sache
Image GPT stammt aus 2020. Sechs Jahre alt. Seitdem haben Diffusion Models die Bildgenerierung komplett übernommen. Der Pixel-Transformer-Ansatz blieb eine Forschungsskizze — elegant, aber ohne Nachfolger.