GAIA | mychatgpt.net - Il tuo sito web preferito per le informazioni sui prodotti AI

Presentando GAIA: La Prossima Generazione nella Creazione di Avatar Parlanti in Modalità Zero-Shot

La generazione di avatar parlanti in modalità zero-shot implica la sintesi di video realistici utilizzando solo un’immagine di ritratto singola e il relativo discorso corrispondente. Le tecniche tradizionali spesso si basavano su euristiche specifiche legate al dominio, come la rappresentazione del movimento basata sulla deformazione e i modelli 3D di morfologia. Tuttavia, questi metodi limitavano la naturalezza e la varietà dell’avatar.

Presentiamo GAIA (Generative AI for Avatar), un sistema innovativo progettato per eliminare la necessità di informazioni pregresse nel processo di generazione degli avatar.

GAIA opera su un’osservazione: mentre il discorso guida il movimento dell’avatar, l’aspetto e lo sfondo dell’avatar rimangono costanti per la durata del video. Abbiamo sintetizzato questo processo in due fasi chiave:

Separare ogni fotogramma in rappresentazioni separate del movimento e dell’aspetto.
Generare sequenze di movimento basate sul discorso e sull’immagine di riferimento del ritratto.

Per ottimizzare GAIA, abbiamo addestrato il modello su un dataset di avatar parlanti di vasta scala e di alta qualità con diverse scale (fino a 2 miliardi di parametri). I risultati? GAIA si è dimostrato superiore rispetto ai modelli precedenti per quanto riguarda:

La naturalezza,
La diversità,
La qualità della sincronizzazione labiale e
La qualità visiva.

Inoltre, GAIA è scalabile (modelli più grandi producono risultati migliori) e versatile, supportando applicazioni che vanno dalla generazione di avatar parlanti controllabili alla generazione di avatar instradati dal testo.

Ti stai chiedendo come funziona GAIA? Dai un’occhiata al diagramma qui:

Official Website

Speech-driven Talking Avatar Generation-1

Speech-driven Talking Avatar Generation-2

Speech-driven Talking Avatar Generation-3

Video-driven Talking Avatar Generation-1

Video-driven Talking Avatar Generation-2

Pose-controllable Talking Avatar Generation

Fully Controllable Talking Avatar Generation

Textual Instruction: Sad

Textual Instruction: Open your mouth

Textual Instruction: Surprise

Official Website