我们非常高兴地推出了VividTalk,这是一个创新的两阶段框架,旨在生成视觉上引人注目的说话人视频。这个创新模型利用音频生成了与嘴唇同步的表情特征、自然的头部姿势生成和高清视频,这些方面引起了许多人的兴趣。
在第一阶段中,我们使用双动作学习系统将音频映射到网格中,包括非刚性表情和刚性头部运动。这使得模型能够通过使用中间标记的形状混合和顶点来有效处理表情动作。对于自然的头部运动,我们独特的可学习头部姿势代码本配合两阶段训练机制发挥作用。
第二阶段通过引入并行分支动作-VAE和生成器来实现将网格转化为密集动作,同时逐帧合成优质视频。
我们的深度测试表明,VividTalk能够有效生成具有高清和嘴唇同步的说话人视频,增强了真实感。它在客观和主观比较中明显优于之前的顶级模型。
想要观看VividTalk如何通过表情和头部姿势来为真实和嘴唇同步的说话人视频增添动画效果吗?请通过我们的网站查看一些预览图片此处。一旦论文发布,我们将公开代码供公众使用。
VividTalk supports animating facial images across various styles, such as human, realism, and cartoon.
Using VividTalk you create talking head videos according to various audio singal.
The comparison between VividTalk and state-of-the-art methods in terms of lip-sync, head pose naturalness, identity preservation, and video quality.