Apresentando o VidToMe - pode ser a Gen-1 de código aberto que você estava esperando! Repleto de opções para edições de vídeo com texto, modelos personalizados e orientação ControlNet, o VidToMe oferece uma consistência temporal excepcional. Apenas um exemplo de arte de pixel e você estará viciado!

Os modelos de difusão têm pioneirismo na geração de imagens de alta qualidade, mas suas aplicações na geração de vídeos têm enfrentado dificuldades devido a complexidades de movimento temporal. É aí que entra a edição de vídeo zero-shot, aplicando modelos de difusão de imagem pré-treinados para reformatar vídeos originais. No entanto, questões como a manutenção da consistência temporal e uso eficiente de memória ainda são problemas.

Nós adotamos uma abordagem inovadora para resolver esses problemas. Reforçamos a consistência temporal em vídeos gerados entrelaçando tokens de autoatenção entre os quadros. Ao alinhar e comprimir tokens temporalmente redundantes, aumentamos a coerência temporal e reduzimos o uso de memória. Nosso processo único de fusão alinha os tokens com base na relação temporal entre os quadros do vídeo, garantindo um conteúdo de vídeo naturalmente consistente.

O VidToMe lida com o processamento pesado de vídeo. Dividimos o vídeo em partes e aplicamos a fusão de tokens local intra-parte e a fusão de tokens global inter-parte. Essa abordagem garante a continuidade e consistência de curto e longo prazo do conteúdo do vídeo. Ao aproximar a edição de imagem e vídeo, nossa técnica de edição de vídeo supera os padrões da indústria atual na manutenção da consistência temporal.

Official Website

Build web-apps using plain english

VidToMe: Video Token Merging for Zero-Shot Video Editing

Logotipo do VidToMe - Uma imagem do logotipo do VidToMe, apresentando o texto “VidToMe” em uma fonte em negrito com um design moderno.

Interface do VidToMe - Uma captura de tela da interface do VidToMe, mostrando várias opções para edições de vídeo com texto, modelos personalizados e orientação do ControlNet, proporcionando aos usuários uma consistência temporal excepcional na geração de vídeos.

Official Website