Apresentando o VidToMe - pode ser a Gen-1 de código aberto que você estava esperando! Repleto de opções para edições de vídeo com texto, modelos personalizados e orientação ControlNet, o VidToMe oferece uma consistência temporal excepcional. Apenas um exemplo de arte de pixel e você estará viciado!
Os modelos de difusão têm pioneirismo na geração de imagens de alta qualidade, mas suas aplicações na geração de vídeos têm enfrentado dificuldades devido a complexidades de movimento temporal. É aí que entra a edição de vídeo zero-shot, aplicando modelos de difusão de imagem pré-treinados para reformatar vídeos originais. No entanto, questões como a manutenção da consistência temporal e uso eficiente de memória ainda são problemas.
Nós adotamos uma abordagem inovadora para resolver esses problemas. Reforçamos a consistência temporal em vídeos gerados entrelaçando tokens de autoatenção entre os quadros. Ao alinhar e comprimir tokens temporalmente redundantes, aumentamos a coerência temporal e reduzimos o uso de memória. Nosso processo único de fusão alinha os tokens com base na relação temporal entre os quadros do vídeo, garantindo um conteúdo de vídeo naturalmente consistente.
O VidToMe lida com o processamento pesado de vídeo. Dividimos o vídeo em partes e aplicamos a fusão de tokens local intra-parte e a fusão de tokens global inter-parte. Essa abordagem garante a continuidade e consistência de curto e longo prazo do conteúdo do vídeo. Ao aproximar a edição de imagem e vídeo, nossa técnica de edição de vídeo supera os padrões da indústria atual na manutenção da consistência temporal.
Build web-apps using plain english
VidToMe: Video Token Merging for Zero-Shot Video Editing