Estamos emocionados de presentar VividTalk, un novedoso marco de dos etapas diseñado para generar videos de cabezas parlantes visualmente impactantes. Este modelo innovador aprovecha el audio para crear características faciales expresivas sincronizadas con los labios, generación natural de movimiento de la cabeza y videos de alta definición, aspectos que han despertado gran interés en muchos.
En nuestra primera etapa, mapeamos el audio en una malla utilizando un sistema de aprendizaje de doble movimiento, que abarca tanto la expresión no rígida como el movimiento rígido de la cabeza. Esto permite que el modelo maneje eficazmente el movimiento de expresión mediante el uso de marcadores intermedios de forma mezclada y vértices. Para los movimientos naturales de la cabeza, entra en juego nuestro código único de postura de cabeza aprendible acompañado de un mecanismo de entrenamiento de dos fases.
La segunda etapa se desarrolla mediante la introducción de una rama paralela de Motion-VAE y un generador que facilitan la transformación de las mallas en movimiento denso al sintetizar videos de calidad superior cuadro por cuadro.
Nuestras pruebas intensivas indican que VividTalk genera de manera efectiva videos de cabezas parlantes con alta definición y sincronización labial, aumentando así el realismo. Supera significativamente a modelos de primer nivel anteriores tanto en comparaciones objetivas como subjetivas.
¿Tienes ganas de ver cómo VividTalk anima videos realistas y sincronizados labialmente de cabezas parlantes complementados con expresiones faciales expresivas y poses naturales de la cabeza? Visita nuestro sitio web para un adelanto aquí. Una vez que el artículo sea publicado, haremos que el código esté disponible al público.
VividTalk supports animating facial images across various styles, such as human, realism, and cartoon.
Using VividTalk you create talking head videos according to various audio singal.
The comparison between VividTalk and state-of-the-art methods in terms of lip-sync, head pose naturalness, identity preservation, and video quality.