🧪 EXPERIMENTAL
Ein Foto reicht: LPM 1.0 erweckt Avatare zum Leben
Ein einziges Bild rein, ein sprechender Avatar raus. Das chinesische Forschungsmodell LPM 1.0 generiert in Echtzeit Videos mit Mimik, Lippensync und emotionalen Reaktionen — aus ...
Ein einziges Bild rein, ein sprechender Avatar raus. Das chinesische Forschungsmodell LPM 1.0 generiert in Echtzeit Videos mit Mimik, Lippensync und emotionalen Reaktionen — aus Text, Audio oder beidem.
Wie das funktioniert
Du gibst dem Modell ein Portraitfoto. Dazu Text oder eine Audiodatei. LPM 1.0 erzeugt daraus ein Video, in dem die Person spricht, die Lippen synchron bewegt und sogar Emotionen zeigt. Das Ganze läuft in Echtzeit.
Zahlenbox
- 1 Bild** — reicht als Input für den kompletten Avatar
- 3 Modi** — Text-to-Video, Audio-to-Video, kombiniert
- Echtzeit** — keine Minuten Renderzeit, direkte Ausgabe
Was LPM 1.0 kann
- Lippensynchronisation:** Mundbewegungen passen zum gesprochenen Audio
- Emotionale Mimik:** Der Avatar reagiert nicht wie eine tote Maske
- Multimodal:** Versteht Text, Audio und Bild gleichzeitig
- Singen:** Ja, der Avatar kann auch singen
✅ Pro
- Nur ein einzelnes Foto nötig — kein aufwendiges 3D-Scanning
- Echtzeit-Fähigkeit statt stundenlangem Rendering
- Multimodaler Ansatz (Text + Audio + Bild gleichzeitig)
❌ Con
- Reines Forschungsprojekt — kein Download, kein API-Zugang
- Keine unabhängigen Tests außerhalb der Demo
- Deepfake-Potenzial ist offensichtlich
💡 Was das bedeutet
Avatare aus einem einzigen Foto in Echtzeit — das ist der nächste Schritt Richtung synthetische Videokommunikation. Für Kundenservice-Bots, virtuelle Influencer oder Bildung könnte das nützlich werden. Aber eben auch für Deepfakes, und darüber schweigt die Demo.
🤖 NERDMAN-URTEIL
Beeindruckende Forschung, aber solange das nur eine hübsche Demo ohne Release ist, bleibt LPM 1.0 ein „Schaut mal was wir können" — und davon gibt es in der KI-Welt mehr als genug.
Quelle: The Decoder
War dieser Artikel hilfreich?
Dein Feedback hilft uns, bessere Artikel zu liefern.