O novo projeto do Google, VLOGGER, leva a comunicação digital para o próximo nível ao gerar vídeos realistas de fala de personagens a partir apenas de imagens e áudio. Embora ainda esteja a caminho de alcançar a naturalidade realista de alguns concorrentes, o VLOGGER se destaca com sua abordagem inovadora.

O que é o VLOGGER? O VLOGGER transforma textos e áudios em vídeos dinâmicos de falantes usando uma foto de uma pessoa. Aproveitando o poder de modelos difusivos generativos de ponta, ele introduz uma mistura inovadora de tecnologia para dar vida a imagens estáticas.

Recursos principais do VLOGGER:

  • Criação de Movimento Dinâmico: Através de um sofisticado modelo de difusão de movimento 3D do corpo humano estocástico, o VLOGGER captura e anima nuances humanas.
  • Evolução de Texto para Imagem: Ele amplia o campo dos modelos de texto para imagem com uma arquitetura única baseada em difusão, permitindo a manipulação detalhada temporal e espacialmente.

A tecnologia por trás do VLOGGER possibilita a criação de vídeos de alta qualidade de várias durações. Esses vídeos mantêm alto nível de controle sobre representações faciais e corporais, apresentando aos usuários uma ferramenta não apenas avançada, mas também flexível.

Por que o VLOGGER se destaca:

  • Aplicabilidade Universal: Ao contrário de modelos anteriores que exigem treinamento específico para cada pessoa, o VLOGGER é universalmente adaptável.
  • Geração de Imagem Holística: Ele vai além da mera detecção facial, gerando vídeos de personagens de corpo inteiro sem a necessidade de recorte.
  • Versatilidade: O VLOGGER atende a uma variedade diversa de cenários, incluindo visibilidade do torso completo e diversas identidades, garantindo uma síntese abrangente de humanos virtuais.

Através desses avanços, o VLOGGER está pavimentando o caminho para interações humanas virtuais mais autênticas e acessíveis em várias plataformas digitais.
Official Website

demonstration

Official Website