Apresentando GAIA: A Próxima Geração em Criação de Avatar de Conversação de Zero-Shot

A geração de avatar de conversação de Zero-Shot envolve a síntese de vídeos de conversação realistas usando apenas uma única imagem de retrato e o discurso correspondente. Técnicas tradicionais frequentemente dependiam de heurísticas específicas relacionadas ao domínio, como representação de movimento baseada em deformação e modelos de transformação 3D. No entanto, esses métodos impunham restrições à naturalidade e variedade do avatar.

Apresentamos o GAIA (Generative AI for Avatar), um sistema inovador projetado para eliminar a necessidade de prioridades de domínio no processo de geração de avatar.

O GAIA opera em uma observação: enquanto o discurso direciona o movimento do avatar, a aparência e o fundo do avatar permanecem constantes durante a duração do vídeo. Destilamos esse processo em duas etapas-chave:

  1. Desentrinchar cada quadro em representações separadas de movimento e aparência.
  2. Gerar sequências de movimento com base no discurso e na imagem de retrato de referência.

Para otimizar o GAIA, treinamos o modelo em um conjunto de dados de avatar de conversação de grande escala e alta qualidade com várias escalas (até 2B parâmetros). Os resultados? O GAIA superou os modelos anteriores em relação a:

  • Naturalidade,
  • Diversidade,
  • Qualidade de sincronização labial, e
  • Qualidade visual.

Além disso, o GAIA é escalável (modelos maiores geram resultados melhores) e versátil, suportando aplicações que vão desde a geração de avatar de conversação controlável até a geração de avatar com instruções de texto.

Curioso para saber como o GAIA funciona? Confira o diagrama aqui:

Estrutura do GAIA

Official Website

Speech-driven Talking Avatar Generation-1
Speech-driven Talking Avatar Generation-2
Speech-driven Talking Avatar Generation-3
Video-driven Talking Avatar Generation-1
Video-driven Talking Avatar Generation-2
Pose-controllable Talking Avatar Generation
Fully Controllable Talking Avatar Generation
Textual Instruction: Sad
Textual Instruction: Open your mouth
Textual Instruction: Surprise

Official Website