GAIA: 제로샷 토킹 아바타 생성의 차세대
제로샷 토킹 아바타 생성은 단 하나의 초상 이미지와 해당 음성만을 이용하여 현실적인 토킹 비디오를 합성하는 것을 의미합니다. 기존의 기술은 종종 변형 기반 운동 표현 및 3D 변형 모델과 같은 특정 도메인과 관련된 휴리스틱에 의존했습니다. 하지만 이러한 방법은 아바타의 자연스러움과 변화 다양성을 제한하는 한계가 있었습니다.
우리는 도메인 사전 정보를 아바타 생성 과정에서 필요로 하지 않도록 설계된 혁신적인 시스템인 GAIA (Generative AI for Avatar)를 소개합니다.
GAIA는 다음과 같은 관찰을 기반으로 동작합니다: 음성은 아바타의 움직임을 주도하지만 비디오의 기간 동안 아바타의 외모와 배경은 일정합니다. 이 과정을 다음의 두 가지 주요 단계로 요약했습니다:
- 각 프레임을 운동과 외모를 분리하는 분리 단계.
- 음성과 참조 초상 이미지를 기반으로 운동 시퀀스를 생성하는 단계.
GAIA를 최적화하기 위해 우리는 다양한 스케일(2B 파라미터까지)의 대규모 고품질 토킹 아바타 데이터셋에서 모델을 훈련했습니다. 결과는 놀랍습니다. GAIA는 다음과 관련하여 이전 모델에 비해 우수한 성능을 발휘합니다:
- 자연스러움,
- 다양성,
- 입동싱크 품질,
- 시각적 품질.
게다가 GAIA는 확장 가능하며(더 큰 모델일수록 더 좋은 결과를 얻을 수 있음), 제어 가능한 토킹 아바타 생성부터 텍스트 기반 아바타 생성까지 다양한 응용을 지원하는 다재다능한 시스템입니다.
GAIA가 어떻게 동작하는지 궁금하신가요? 아래 다이어그램을 확인해보세요:
Speech-driven Talking Avatar Generation-1
Speech-driven Talking Avatar Generation-2
Speech-driven Talking Avatar Generation-3
Video-driven Talking Avatar Generation-1
Video-driven Talking Avatar Generation-2
Pose-controllable Talking Avatar Generation
Fully Controllable Talking Avatar Generation
Textual Instruction: Sad
Textual Instruction: Open your mouth
Textual Instruction: Surprise