Presentamos EMO, un innovador marco de trabajo desarrollado por el Grupo Alibaba, diseñado para dar vida a retratos estáticos con el poder del audio. Simplemente proporcione una única imagen de referencia y un fragmento de audio, como hablar o cantar, y EMO hará su magia para crear videos de avatar vocal. Estos videos no solo son expresivos en los movimientos faciales, sino que también presentan diferentes posiciones de la cabeza, capaces de encajar en la duración de su audio suministrado.

Cómo funciona EMO: EMO funciona en dos etapas principales:

  1. Codificación de fotogramas: Utiliza ReferenceNet para analizar la imagen de referencia y los fotogramas de movimiento, capturando características esenciales.
  2. Proceso de difusión: Incorpora un codificador de audio preentrenado para incrustaciones de audio, mezclándolo con una máscara de región facial y ruido de múltiples fotogramas. La Red de Referencia, equipada con mecanismos de Atención a la Referencia y Atención al Audio, luego elimina el ruido de esta información. Estos pasos aseguran que la identidad del personaje se mantenga intacta mientras reflejan con precisión la dinámica del audio a través de expresiones faciales y movimientos de cabeza. Para garantizar un flujo de video fluido, los Módulos Temporales ajustan la velocidad del movimiento.

Experimenta la magia:

  • Retratos cantantes: Transforma una imagen de un personaje estático en un avatar cantante con una profundidad emocional completa y diferentes posiciones de la cabeza. Independientemente de la duración del audio, nuestra tecnología mantiene la consistencia de la identidad del personaje a lo largo del video.

Propósito e inspiración: Este proyecto está creado para la investigación académica y para mostrar los efectos. Es una prueba del compromiso del Grupo Alibaba de empujar los límites de la IA y el aprendizaje automático. El marco de trabajo se basa en los fundamentos establecidos por el proyecto Nerfies, mostrando nuestra dedicación a la innovación.

Sumérgete en el mundo de los retratos animados con EMO, donde tu voz da vida a las imágenes de formas sin precedentes.
Official Website

demonstrates its power

Marco EMO de Alibaba Group: Retrato estático de una persona con entrada de audio y creación de video de avatar vocal resultante.

Official Website