Siamo entusiasti di svelare il VividTalk, un nuovo framework a due fasi progettato per generare video di visi parlanti visivamente sorprendenti. Questo modello innovativo sfrutta l’audio per creare caratteristiche facciali espressive in sincronia con le labbra, generazione naturale della posizione della testa e video ad alta definizione, aspetti che hanno suscitato notevolmente l’interesse di molti.

Nella nostra prima fase, mappiamo l’audio su una mesh utilizzando un sistema di apprendimento a doppio movimento, che comprende sia l’espressione non rigida che il movimento rigido della testa. Ciò permette al modello di gestire efficacemente il movimento delle espressioni utilizzando blendshape e vertici come marcatori intermedi. Per i movimenti naturali della testa, entra in gioco il nostro unico codice apprendibile per la posizione della testa, accompagnato da un meccanismo di addestramento a due fasi.

La seconda fase si svolge introducendo un ramo di movimento-VAE simultaneo e un generatore che facilitano la trasformazione delle mesh in un movimento denso, mentre sintetizzano video di qualità superiore frame per frame.

I nostri intensi test indicano che VividTalk genera efficacemente video ad alta definizione di volti parlanti in sincronia con le labbra, aumentando il realismo. Supera significativamente modelli di alto livello precedenti sia nelle comparazioni oggettive che soggettive.

Interessati a vedere come VividTalk anima video realistici e in sincronia con le labbra, con espressioni facciali espressive e posizioni naturali della testa? Visita il nostro sito web per uno sguardo anticipato qui. Una volta che l’articolo verrà pubblicato, renderemo il codice disponibile al pubblico.

Official Website

VividTalk supports animating facial images across various styles, such as human, realism, and cartoon.
Using VividTalk you create talking head videos according to various audio singal.
The comparison between VividTalk and state-of-the-art methods in terms of lip-sync, head pose naturalness, identity preservation, and video quality.

Official Website