Presentando GAIA: La Prossima Generazione nella Creazione di Avatar Parlanti in Modalità Zero-Shot

La generazione di avatar parlanti in modalità zero-shot implica la sintesi di video realistici utilizzando solo un’immagine di ritratto singola e il relativo discorso corrispondente. Le tecniche tradizionali spesso si basavano su euristiche specifiche legate al dominio, come la rappresentazione del movimento basata sulla deformazione e i modelli 3D di morfologia. Tuttavia, questi metodi limitavano la naturalezza e la varietà dell’avatar.

Presentiamo GAIA (Generative AI for Avatar), un sistema innovativo progettato per eliminare la necessità di informazioni pregresse nel processo di generazione degli avatar.

GAIA opera su un’osservazione: mentre il discorso guida il movimento dell’avatar, l’aspetto e lo sfondo dell’avatar rimangono costanti per la durata del video. Abbiamo sintetizzato questo processo in due fasi chiave:

  1. Separare ogni fotogramma in rappresentazioni separate del movimento e dell’aspetto.
  2. Generare sequenze di movimento basate sul discorso e sull’immagine di riferimento del ritratto.

Per ottimizzare GAIA, abbiamo addestrato il modello su un dataset di avatar parlanti di vasta scala e di alta qualità con diverse scale (fino a 2 miliardi di parametri). I risultati? GAIA si è dimostrato superiore rispetto ai modelli precedenti per quanto riguarda:

  • La naturalezza,
  • La diversità,
  • La qualità della sincronizzazione labiale e
  • La qualità visiva.

Inoltre, GAIA è scalabile (modelli più grandi producono risultati migliori) e versatile, supportando applicazioni che vanno dalla generazione di avatar parlanti controllabili alla generazione di avatar instradati dal testo.

Ti stai chiedendo come funziona GAIA? Dai un’occhiata al diagramma qui:

Framework di GAIA

Official Website

Speech-driven Talking Avatar Generation-1
Speech-driven Talking Avatar Generation-2
Speech-driven Talking Avatar Generation-3
Video-driven Talking Avatar Generation-1
Video-driven Talking Avatar Generation-2
Pose-controllable Talking Avatar Generation
Fully Controllable Talking Avatar Generation
Textual Instruction: Sad
Textual Instruction: Open your mouth
Textual Instruction: Surprise

Official Website