Apresentando GAIA: A Próxima Geração em Criação de Avatar de Conversação de Zero-Shot
A geração de avatar de conversação de Zero-Shot envolve a síntese de vídeos de conversação realistas usando apenas uma única imagem de retrato e o discurso correspondente. Técnicas tradicionais frequentemente dependiam de heurísticas específicas relacionadas ao domínio, como representação de movimento baseada em deformação e modelos de transformação 3D. No entanto, esses métodos impunham restrições à naturalidade e variedade do avatar.
Apresentamos o GAIA (Generative AI for Avatar), um sistema inovador projetado para eliminar a necessidade de prioridades de domínio no processo de geração de avatar.
O GAIA opera em uma observação: enquanto o discurso direciona o movimento do avatar, a aparência e o fundo do avatar permanecem constantes durante a duração do vídeo. Destilamos esse processo em duas etapas-chave:
- Desentrinchar cada quadro em representações separadas de movimento e aparência.
- Gerar sequências de movimento com base no discurso e na imagem de retrato de referência.
Para otimizar o GAIA, treinamos o modelo em um conjunto de dados de avatar de conversação de grande escala e alta qualidade com várias escalas (até 2B parâmetros). Os resultados? O GAIA superou os modelos anteriores em relação a:
- Naturalidade,
- Diversidade,
- Qualidade de sincronização labial, e
- Qualidade visual.
Além disso, o GAIA é escalável (modelos maiores geram resultados melhores) e versátil, suportando aplicações que vão desde a geração de avatar de conversação controlável até a geração de avatar com instruções de texto.
Curioso para saber como o GAIA funciona? Confira o diagrama aqui:
Speech-driven Talking Avatar Generation-1
Speech-driven Talking Avatar Generation-2
Speech-driven Talking Avatar Generation-3
Video-driven Talking Avatar Generation-1
Video-driven Talking Avatar Generation-2
Pose-controllable Talking Avatar Generation
Fully Controllable Talking Avatar Generation
Textual Instruction: Sad
Textual Instruction: Open your mouth
Textual Instruction: Surprise