구글의 새로운 프로젝트인 VLOGGER는 이미지와 오디오만으로도 현실적인 캐릭터 음성 동영상을 생성하여 디지털 커뮤니케이션을 더욱 발전시킵니다. 아직은 다른 프로그램들과 비교해 진정한 자연스러움을 달성하기에는 길지만, VLOGGER는 혁신적인 접근 방식으로 눈에 띄는 차별성을 가지고 있습니다.
VLOGGER란 무엇인가요? VLOGGER는 사람의 스냅샷을 사용하여 텍스트와 오디오 입력을 동적인 화자 동영상으로 변환합니다. 최첨단 생성 확산 모델의 힘을 활용하여 정적 이미지에 생명을 불어넣는 새로운 기술 조합을 제공합니다.
VLOGGER의 주요 기능:
- 동적 모션 생성: 정교한 확률론적 인간 몸체를 3D 모션 확산 모델을 통해 캡처하고 애니메이션화합니다.
- 텍스트-이미지 진화: 독특한 확산 기반 아키텍처를 통해 텍스트-이미지 모델의 영역을 확장하여 세부적인 시간적 및 공간적 조작이 가능합니다.
VLOGGER의 기술은 다양한 길이의 고품질 동영상 생성을 가능하게 합니다. 이 동영상들은 얼굴과 신체 표현에 대한 높은 수준의 제어를 유지하여 사용자들에게 고급이면서도 유연한 도구를 제공합니다.
VLOGGER의 우수성:
- 전체 적용성: 이전 모델들과 달리 VLOGGER는 개별적인 훈련이 필요하지 않으며 대중적으로 적용 가능합니다.
- 통합적 이미지 생성: 얼굴 감지에만 그치지 않고 크롭 없이도 전신 캐릭터 동영상을 생성합니다.
- 다양성: VLOGGER는 다양한 상황에 대응하여 토르소 용량 및 다양한 정체성을 제공하여 종합적인 가상 인간 합성을 보장합니다.
이러한 발전을 통해 VLOGGER는 다양한 디지털 플랫폼에서 보다 실제적이고 접근 가능한 가상 인간 상호작용을 가능케 하는 길을 열어갑니다.
Official Website
demonstration