Vorstellung von GAIA: Die nächste Generation der Zero-Shot Talking Avatar-Erstellung
Bei der Erzeugung von Zero-Shot Talking Avatars werden realistische Sprechvideos mit nur einem einzigen Porträtbild und der entsprechenden Sprache synthetisiert. Traditionelle Techniken verließen sich oft auf spezifische domänenbezogene Heuristiken wie bewegungsbasierte Verzerrungsrepräsentation und 3D-Morphable-Modelle. Diese Methoden beschränkten jedoch die Natürlichkeit und Vielfalt des Avatars.
Wir präsentieren GAIA (Generative AI for Avatar), ein innovatives System, das darauf abzielt, auf domänenbasierte Vorkenntnisse im Avatar-Generierungsprozess zu verzichten.
GAIA beruht auf einer Beobachtung: Während die Sprache die Bewegung des Avatars steuert, bleibt das Erscheinungsbild des Avatars und der Hintergrund für die Dauer des Videos konstant. Wir haben diesen Prozess in zwei Schlüsselstufen zusammengefasst:
- Die Trennung jedes Bildes in separate Bewegungs- und Erscheinungsrepräsentationen.
- Die Erzeugung von Bewegungssequenzen basierend auf der Sprache und dem Referenzporträtbild.
Um GAIA zu optimieren, haben wir das Modell auf einem umfangreichen, hochwertigen Datensatz von sprechenden Avataren in verschiedenen Skalen trainiert (bis zu 2 Milliarden Parameter). Das Ergebnis? GAIA übertrifft frühere Modelle in Bezug auf:
- Natürlichkeit,
- Vielfalt,
- Lippen-Synchronität und
- visuelle Qualität.
Darüber hinaus ist GAIA skalierbar (größere Modelle erzielen bessere Ergebnisse) und vielseitig einsetzbar. Es unterstützt Anwendungen von der steuerbaren Generierung von sprechenden Avataren bis hin zur textgesteuerten Avatargenerierung.
Sie fragen sich, wie GAIA funktioniert? Schauen Sie sich hier das Diagramm an:
Speech-driven Talking Avatar Generation-1
Speech-driven Talking Avatar Generation-2
Speech-driven Talking Avatar Generation-3
Video-driven Talking Avatar Generation-1
Video-driven Talking Avatar Generation-2
Pose-controllable Talking Avatar Generation
Fully Controllable Talking Avatar Generation
Textual Instruction: Sad
Textual Instruction: Open your mouth
Textual Instruction: Surprise