谷歌的新项目VLOGGER通过仅使用图像和音频生成真实的字符语音视频,将数字通信推向了一个新的水平。虽然VLOGGER仍在朝着某些同行的逼真自然性发展,但其创新方法使其脱颖而出。
VLOGGER是什么? VLOGGER利用人物快照,将文本和音频输入转化为动态演讲者视频。借助尖端生成扩散模型的力量,它引入了一种新颖的技术组合,将静态图像呈现为生动的画面。
VLOGGER的核心特点:
- **动态运动创建:**通过一个复杂的随机人体到3D运动扩散模型,VLOGGER捕捉并模拟人类微妙之处。
- **文本到图像的演变:**它通过独特的扩散式架构扩展了文本到图像模型的领域,允许详细的时空操作。
VLOGGER背后的技术使得创造不同长度的高质量视频成为可能。这些视频对面部和身体的表现具有高度的控制,为用户提供了一个不仅先进而且灵活的工具。
VLOGGER的独特之处:
- **通用应用:**与之前需要特定人员培训的模型不同,VLOGGER具有普适性。
- **整体图像生成:**它超越了简单的人脸检测,生成了完整形象的字符视频,无需裁剪。
- **多功能性:**VLOGGER适用于各种不同场景,包括全身可见性和各种身份,确保全面的虚拟人合成。
通过这些创新,VLOGGER为在各种数字平台上进行更真实和可访问的虚拟人交互铺平了道路。
Official Website
demonstration