介绍GAIA:零射击对话头像生成的下一代技术

零射击对话头像生成涉及使用单个肖像图像和相应的语音合成逼真的对话视频。传统技术通常依赖于特定的领域相关启发式方法,例如基于扭曲的运动表示和3D可塑形模型。然而,这些方法对头像的自然性和多样性有一定的限制。

我们推出了GAIA(头像生成的生成人工智能),这是一个创新的系统,旨在消除头像生成过程中对领域先验知识的需求。

GAIA的运作基于一个观察:语音驱动头像的运动,而头像的外观和背景在整个视频持续时间内保持不变。我们将此过程分解为两个关键阶段:

  1. 将每个帧分解为独立的运动和外观表示。
  2. 基于语音和参考肖像图像生成运动序列。

为了优化GAIA,我们在大规模、高质量的各种规模(高达20亿个参数)的对话头像数据集上对模型进行了训练。结果如何呢?GAIA在以下方面优于先前的模型:

  • 自然性,
  • 多样性,
  • 嘴唇同步质量,
  • 视觉质量。

此外,GAIA具有可扩展性(更大的模型产生更好的结果)和多功能性,支持从可控对话头像生成到文本指导的头像生成的应用。

想知道GAIA是如何工作的吗?请查看这里的示意图:

GAIA框架

Official Website

Speech-driven Talking Avatar Generation-1
Speech-driven Talking Avatar Generation-2
Speech-driven Talking Avatar Generation-3
Video-driven Talking Avatar Generation-1
Video-driven Talking Avatar Generation-2
Pose-controllable Talking Avatar Generation
Fully Controllable Talking Avatar Generation
Textual Instruction: Sad
Textual Instruction: Open your mouth
Textual Instruction: Surprise

Official Website