우리는 환상적으로 설계된 새로운 두 단계 프레임워크인 VividTalk를 공개하게 되어 기쁩니다. 이 혁신적인 모델은 오디오를 활용하여 대화하는 머리 영상을 시각적으로 인상적으로 생성합니다. 이 모델은 입동기화된 표정과 표현적인 얼굴 특징, 자연스러운 머리 자세 생성, 고화질 비디오 등을 가능하게 합니다. 이러한 측면들은 많은 사람들의 관심을 끌고 있습니다.
첫 번째 단계에서는 오디오를 둔감한 표현과 고정된 머리 움직임을 모두 포함하는 이중 모션 학습 시스템을 사용하여 메시로 매핑합니다. 이를 통해 모델은 블렌드 형태와 버텍스를 중간 마커로 사용하여 표현 움직임을 효과적으로 처리할 수 있습니다. 자연스러운 머리 움직임을 위해 학습 가능한 머리 자세 코드북과 이중 단계 학습 메커니즘이 사용됩니다.
두 번째 단계에서는 동시 분기 모션-VAE와 메시를 밀집된 모션으로 변환하며, 프레임별로 우수한 품질의 비디오를 합성하는 생성자를 도입합니다.
저희의 집중적인 실험 결과에 따르면, VividTalk는 고화질의 입동기화된 대화 머리 영상을 실감나게 생성합니다. 이 모델은 객관적 및 주관적 비교에서 이전 최고 수준의 모델들을 훌륭하게 앞서가고 있습니다.
VividTalk가 표정적인 표현과 자연스러운 머리 자세를 보완한 실감나고 입동기화된 대화 머리 영상을 어떻게 움직이는지 궁금하신가요? 저희 웹사이트에서 여기서 일부 내용을 엿볼 수 있습니다. 논문이 출판되면, 코드를 일반에 공개할 예정입니다.
VividTalk supports animating facial images across various styles, such as human, realism, and cartoon.
Using VividTalk you create talking head videos according to various audio singal.
The comparison between VividTalk and state-of-the-art methods in terms of lip-sync, head pose naturalness, identity preservation, and video quality.