Presentando GAIA: La Prossima Generazione nella Creazione di Avatar Parlanti in Modalità Zero-Shot
La generazione di avatar parlanti in modalità zero-shot implica la sintesi di video realistici utilizzando solo un’immagine di ritratto singola e il relativo discorso corrispondente. Le tecniche tradizionali spesso si basavano su euristiche specifiche legate al dominio, come la rappresentazione del movimento basata sulla deformazione e i modelli 3D di morfologia. Tuttavia, questi metodi limitavano la naturalezza e la varietà dell’avatar.
Presentiamo GAIA (Generative AI for Avatar), un sistema innovativo progettato per eliminare la necessità di informazioni pregresse nel processo di generazione degli avatar.
GAIA opera su un’osservazione: mentre il discorso guida il movimento dell’avatar, l’aspetto e lo sfondo dell’avatar rimangono costanti per la durata del video. Abbiamo sintetizzato questo processo in due fasi chiave:
- Separare ogni fotogramma in rappresentazioni separate del movimento e dell’aspetto.
- Generare sequenze di movimento basate sul discorso e sull’immagine di riferimento del ritratto.
Per ottimizzare GAIA, abbiamo addestrato il modello su un dataset di avatar parlanti di vasta scala e di alta qualità con diverse scale (fino a 2 miliardi di parametri). I risultati? GAIA si è dimostrato superiore rispetto ai modelli precedenti per quanto riguarda:
- La naturalezza,
- La diversità,
- La qualità della sincronizzazione labiale e
- La qualità visiva.
Inoltre, GAIA è scalabile (modelli più grandi producono risultati migliori) e versatile, supportando applicazioni che vanno dalla generazione di avatar parlanti controllabili alla generazione di avatar instradati dal testo.
Ti stai chiedendo come funziona GAIA? Dai un’occhiata al diagramma qui:
Speech-driven Talking Avatar Generation-1
Speech-driven Talking Avatar Generation-2
Speech-driven Talking Avatar Generation-3
Video-driven Talking Avatar Generation-1
Video-driven Talking Avatar Generation-2
Pose-controllable Talking Avatar Generation
Fully Controllable Talking Avatar Generation
Textual Instruction: Sad
Textual Instruction: Open your mouth
Textual Instruction: Surprise