GLM-5V-Turbo macht aus Screenshots fertigen Code
Zhipu AI aus China bringt ein multimodales Modell, das Bilder von UI-Designs nimmt und daraus lauffähigen Code schreibt. Klingt nach Entwickler-Traum — oder Entwickler-Albtraum.
Was GLM-5V-Turbo kann
Das Modell schluckt Bilder, Videos und Text gleichzeitig. Du zeigst ihm ein Design-Mockup, es spuckt Code aus. Fertig.
- Typ:** Multimodales Grundlagenmodell
- Hersteller:** Zhipu AI (China)
- Input:** Bild, Video, Text
- Spezialgebiet:** Code aus visuellen Vorlagen generieren
- Bonus:** Gebaut für Agenten-Workflows
Was das bedeutet
Frontend-Entwickler, die den ganzen Tag Figma-Designs in HTML/CSS übersetzen, bekommen ernsthaft Konkurrenz. Wenn das Modell hält, was Zhipu verspricht, schrumpft der Weg vom Design zum Prototyp auf Sekunden. Besonders interessant: Die Agenten-Integration — das Modell soll nicht nur einzelne Screenshots umsetzen, sondern in automatisierte Pipelines eingebaut werden.
✅ Pro
- Multimodal: Versteht Bilder UND Text gleichzeitig
- Direkte Code-Ausgabe statt nur Beschreibung
- Agenten-kompatibel für automatisierte Workflows
❌ Con
- Aus China — Verfügbarkeit in Europa unklar
- Benchmark-Zahlen? Fehlanzeige. Zhipu liefert Versprechen, keine Beweise
- "Design to Code" haben schon andere versprochen — und nicht geliefert
Der Elefant im Raum
Screenshot-zu-Code ist kein neues Konzept. GPT-4o kann das. Claude kann das. Gemini kann das. Die Frage ist nicht ob ein Modell das kann, sondern wie gut. Und genau da schweigt Zhipu. Kein Benchmark-Vergleich, keine Demo-Videos, keine öffentliche API zum Testen.