O novo projeto do Google, VLOGGER, leva a comunicação digital para o próximo nível ao gerar vídeos realistas de fala de personagens a partir apenas de imagens e áudio. Embora ainda esteja a caminho de alcançar a naturalidade realista de alguns concorrentes, o VLOGGER se destaca com sua abordagem inovadora.
O que é o VLOGGER? O VLOGGER transforma textos e áudios em vídeos dinâmicos de falantes usando uma foto de uma pessoa. Aproveitando o poder de modelos difusivos generativos de ponta, ele introduz uma mistura inovadora de tecnologia para dar vida a imagens estáticas.
Recursos principais do VLOGGER:
- Criação de Movimento Dinâmico: Através de um sofisticado modelo de difusão de movimento 3D do corpo humano estocástico, o VLOGGER captura e anima nuances humanas.
- Evolução de Texto para Imagem: Ele amplia o campo dos modelos de texto para imagem com uma arquitetura única baseada em difusão, permitindo a manipulação detalhada temporal e espacialmente.
A tecnologia por trás do VLOGGER possibilita a criação de vídeos de alta qualidade de várias durações. Esses vídeos mantêm alto nível de controle sobre representações faciais e corporais, apresentando aos usuários uma ferramenta não apenas avançada, mas também flexível.
Por que o VLOGGER se destaca:
- Aplicabilidade Universal: Ao contrário de modelos anteriores que exigem treinamento específico para cada pessoa, o VLOGGER é universalmente adaptável.
- Geração de Imagem Holística: Ele vai além da mera detecção facial, gerando vídeos de personagens de corpo inteiro sem a necessidade de recorte.
- Versatilidade: O VLOGGER atende a uma variedade diversa de cenários, incluindo visibilidade do torso completo e diversas identidades, garantindo uma síntese abrangente de humanos virtuais.
Através desses avanços, o VLOGGER está pavimentando o caminho para interações humanas virtuais mais autênticas e acessíveis em várias plataformas digitais.
Official Website
demonstration