비드투미를 소개합니다 - 당신이 기다리던 오픈 소스 제네레이션 1세대일 수도 있습니다! 텍스트 프롬프트 비디오 편집, 사용자 정의 모델 및 ControlNet 가이던스 옵션으로 가득 찬 비드투미는 예외적인 시간적 일관성을 제공합니다. 한 가지 픽셀 아트 예제만 보면 빠져들게 될 것입니다!
확산 모델은 고품질 이미지 생성을 개척했지만, 가시적인 움직임과 관련된 문제로 인해 비디오 생성 응용 프로그램은 헤매고 있습니다. 이 때문에 제로샷 비디오 편집이 개입하여 사전 훈련된 이미지 확산 모델을 사용하여 원래 비디오의 형식을 조정합니다. 그러나 시간적 일관성을 유지하고 효율적인 메모리 사용 문제와 같은 문제가 여전히 남아 있습니다.
우리는 이 문제들을 해결하기 위해 새로운 각도에서 접근했습니다. 우리는 프레임 간에 자가 어텐션 토큰을 교차하면서 생성된 비디오의 시간적 일관성을 향상시킵니다. 시간적으로 중복되는 토큰을 정렬하고 압축함으로써 우리는 시간적 일관성을 향상시키고 메모리 사용을 줄입니다. 우리의 독특한 병합 과정은 비디오 프레임 간의 시간적 관계에 기반하여 토큰을 일치시켜 자연스러운 일관성 있는 비디오 콘텐츠를 보장합니다.
비드투미는 비디오 처리의 큰 부분을 처리합니다. 우리는 비디오를 청크로 분할하고 청크 내부의 지역 토큰 병합과 청크 간의 전역 토큰 병합을 적용합니다. 이 접근 방식은 비디오 콘텐츠의 단기 및 장기적인 연속성과 일관성을 보장합니다. 이미지와 비디오 편집 간의 간극을 메꾸는 우리의 비디오 편집 기술은 시간적 일관성을 유지하는 현재 산업 표준을 뛰어넘습니다.
Build web-apps using plain english
VidToMe: Video Token Merging for Zero-Shot Video Editing