이미지2비디오

안녕하세요! EMO입니다. 아리바바 그룹이 개발한 혁신적인 프레임워크로, 음성의 힘으로 정적인 초상화를 생동감 있게 만들어줍니다. 하나의 참조 이미지와 말하기 또는 노래하는 음성 클립을 제공하기만 하면, EMO가 마법을 부려 음성 아바타 비디오를 만들어냅니다. 이 비디오는 얼굴 움직임뿐 아니라 다양한 머리 자세도 표현하며, 제공된 음성의 지속 시간에 맞출 수 있습니다. EMO 작동 방식: EMO는 두 가지 주요 단계로 작동합니다: 프레임 인코딩: 참조 이미지와 모션 프레임을 분석하기 위해 ReferenceNet을 사용하여 필수적인 특징을 추출합니다. 확산 과정: 사전 훈련된 오디오 인코더를 이용하여 오디오 임베딩을 통합하고, 이를 얼굴 영역 마스크와 다중 프레임 노이즈와 결합합니다....