Apresentamos EMO, uma estrutura inovadora do Alibaba Group, projetada para dar vida a retratos estáticos com o poder do áudio. Basta fornecer uma única imagem de referência e um áudio, como fala ou canto, e o EMO faz sua mágica para criar vídeos de avatar vocal. Esses vídeos são expressivos não apenas nos movimentos faciais, mas também apresentam poses variadas da cabeça, capazes de corresponder à duração do áudio fornecido.
Como o EMO funciona: O EMO opera em duas etapas principais:
- Codificação de quadros: Utiliza o ReferenceNet para analisar a imagem de referência e os quadros de movimento, capturando características essenciais.
- Processo de difusão: Incorpora um codificador de áudio pré-treinado para incorporar áudios, mesclando-o com uma máscara facial e ruído de múltiplos quadros. A Rede Backbone, equipada com mecanismos de Atenção de Referência e Atenção de Áudio, em seguida, remove o ruído dessa informação. Essas etapas garantem que a identidade do personagem permaneça intacta, enquanto reflete com precisão a dinâmica do áudio por meio das expressões faciais e movimentos da cabeça. Para garantir um fluxo de vídeo perfeito, Módulos Temporais ajustam a velocidade do movimento.
Experimente a magia:
- Retratos cantantes: Transforme uma imagem estática em um avatar cantante com profundidade emocional e poses variadas da cabeça. Independentemente do comprimento do áudio, nossa tecnologia mantém a consistência da identidade do personagem ao longo do vídeo.
Propósito e inspiração: Este projeto é elaborado para pesquisa acadêmica e para demonstrar os efeitos. É um testemunho do compromisso do Alibaba Group de ultrapassar os limites da IA e do aprendizado de máquina. A estrutura é construída sobre as bases estabelecidas pelo projeto Nerfies, mostrando nossa dedicação à inovação.
Mergulhe no mundo dos retratos animados com o EMO, onde sua voz dá vida às imagens de maneiras inéditas.
Official Website
demonstrates its power