Nous sommes ravis de dévoiler le VividTalk, un nouveau cadre à deux étapes conçu pour générer des vidéos de tête parlante visuellement frappantes. Ce modèle innovant exploite l’audio pour créer des traits du visage expressifs synchronisés avec les lèvres, une génération naturelle de la posture de la tête et des vidéos haute définition, des éléments qui ont suscité un vif intérêt.
Dans notre première étape, nous associons l’audio à un maillage à l’aide d’un système d’apprentissage à double mouvement, englobant à la fois l’expression non rigide et le mouvement rigide de la tête. Cela permet au modèle de gérer efficacement le mouvement de l’expression en utilisant les marqueurs intermédiaires blendshape et vertex. Pour les mouvements naturels de la tête, notre codebook unique de pose de tête assimilable accompagné d’un mécanisme d’entraînement en deux phases entre en jeu.
La deuxième étape se déroule en introduisant une branche concurrente motion-VAE et un générateur qui facilitent la transformation des maillages en mouvement dense tout en synthétisant des vidéos de qualité supérieure image par image.
Nos tests intensifs indiquent que VividTalk génère efficacement des vidéos de tête parlante haute définition et synchronisées avec les lèvres, avec un réalisme accru. Il surpasse considérablement les modèles de premier plan précédents tant dans les comparaisons objectives que subjectives.
Impatient de voir comment VividTalk anime des vidéos de tête parlante réalistes et synchronisées avec les lèvres, agrémentées d’expressions faciales expressives et de postures naturelles de la tête ? Rendez-vous sur notre site web pour un aperçu exclusif ici. Une fois l’article publié, nous rendrons le code accessible au public.
VividTalk supports animating facial images across various styles, such as human, realism, and cartoon.
Using VividTalk you create talking head videos according to various audio singal.
The comparison between VividTalk and state-of-the-art methods in terms of lip-sync, head pose naturalness, identity preservation, and video quality.