Presentamos GAIA: La próxima generación en la creación de avatares con capacidad para hablar sin necesidad de entrenamiento previo.
La generación de avatares con capacidad de hablar sin entrenamiento previo implica sintetizar videos realistas utilizando solo una imagen de retrato y el discurso correspondiente. Las técnicas tradicionales a menudo dependían de heurísticas específicas relacionadas con el dominio, como la representación del movimiento basada en las deformaciones y los modelos tridimensionales morfables. Sin embargo, estos métodos imponían restricciones a la naturalidad y variedad del avatar.
Presentamos GAIA (Generative AI for Avatar), un sistema innovador diseñado para eliminar la necesidad de conocimientos previos en el proceso de generación de avatares.
GAIA se basa en una observación: mientras que el discurso impulsa el movimiento del avatar, la apariencia y el fondo del avatar permanecen constantes durante la duración del video. Hemos resumido este proceso en dos etapas clave:
- Desacoplar cada cuadro en representaciones separadas de movimiento y apariencia.
- Generar secuencias de movimiento basadas en el discurso y la imagen de retrato de referencia.
Para optimizar GAIA, entrenamos el modelo utilizando un gran conjunto de datos de avatares con capacidad de hablar, de alta calidad y a diferentes escalas (hasta 2B de parámetros). ¿Los resultados? GAIA superó a los modelos anteriores en cuanto a:
- Naturalidad,
- Diversidad,
- Calidad de sincronización labial, y
- Calidad visual.
Además, GAIA es escalable (los modelos más grandes ofrecen mejores resultados) y versátil, siendo compatible con aplicaciones que van desde la generación de avatares con capacidad de hablar controlables hasta la generación de avatares instruidos por texto.
¿Te preguntas cómo funciona GAIA? Mira el diagrama aquí:
Speech-driven Talking Avatar Generation-1
Speech-driven Talking Avatar Generation-2
Speech-driven Talking Avatar Generation-3
Video-driven Talking Avatar Generation-1
Video-driven Talking Avatar Generation-2
Pose-controllable Talking Avatar Generation
Fully Controllable Talking Avatar Generation
Textual Instruction: Sad
Textual Instruction: Open your mouth
Textual Instruction: Surprise