Estamos emocionados em apresentar o VividTalk, um inovador sistema de duas etapas projetado para gerar vídeos impressionantes de cabeças falantes visualmente. Este modelo inovador utiliza áudio para criar características faciais expressivas sincronizadas com os lábios, geração de pose natural da cabeça e vídeos de alta definição, aspectos que têm despertado muito interesse.
Na primeira etapa, mapeamos o áudio em uma malha usando um sistema de aprendizado de movimento duplo, abrangendo tanto a expressão não rígida quanto o movimento da cabeça rígida. Isso permite que o modelo lide efetivamente com o movimento da expressão ao empregar marcadores intermediários de formas misturadas e vértices. Para movimentos naturais da cabeça, nosso exclusivo código de pose da cabeça aprendível, acompanhado de um mecanismo de treinamento de duas fases, entra em ação.
A segunda etapa se desenrola introduzindo um ramo simultâneo de movimento-VAE e um gerador que facilitam a transformação das malhas em movimento denso enquanto sintetizam vídeos de qualidade superior quadro a quadro.
Nossos testes intensivos indicam que o VividTalk gera de forma eficaz vídeos de cabeças falantes lip-synced em alta definição, com realismo aprimorado. Ele supera significativamente modelos de alto nível anteriores em comparações objetivas e subjetivas.
Ansioso para ver como o VividTalk anima vídeos realistas de cabeças falantes lip-synced complementados por expressões faciais expressivas e poses naturais da cabeça? Visite nosso site para dar uma espiada aqui. Assim que o artigo for publicado, disponibilizaremos o código para o público.
VividTalk supports animating facial images across various styles, such as human, realism, and cartoon.
Using VividTalk you create talking head videos according to various audio singal.
The comparison between VividTalk and state-of-the-art methods in terms of lip-sync, head pose naturalness, identity preservation, and video quality.