私たちは、ビジュアルに魅力的な話し手のビデオを生成するために設計された画期的な二段階フレームワークであるVividTalkを公開することを喜んでいます。この革新的なモデルは、音声を活用してリップシンクされた表情豊かな顔の特徴、自然なヘッドポーズ生成、高精細なビデオなどの要素を生成します。これらの要素は多くの人々の関心を引き付けるものです。

まず、初めの段階では、二重モーション学習システムを使用してオーディオをメッシュにマッピングします。このシステムは、非剛体的な表情と剛体的なヘッドモーションの両方をカバーします。これにより、モデルは中間マーカーとしてブレンドシェイプと頂点を使用して効果的に表情の動きを処理できます。自然なヘッドの動きには、独自の学習可能なヘッドポーズコードブックと、二段階のトレーニングメカニズムが活躍します。

二段階目では、並行してブランチモーション-VAEとジェネレータを導入し、メッシュを密なモーションに変換しながら、一つ一つのフレームに優れた品質のビデオを合成します。

徹底的なテストの結果、VividTalkは高精細でリップシンクの完了した話し手のビデオを実現し、現実感を高めます。客観的および主観的な比較において、これは従来のトップモデルを大幅に上回る性能を発揮します。

VividTalkがどのようにリアルでリップシンクの完了した話し手のビデオを、表情豊かな顔と自然なヘッドポーズと共にアニメーション化するかをご覧になりたいですか?ぜひウェブサイトをご覧ください:こちら。論文が公開されたら、コードも一般に公開します。

Official Website

VividTalk supports animating facial images across various styles, such as human, realism, and cartoon.
Using VividTalk you create talking head videos according to various audio singal.
The comparison between VividTalk and state-of-the-art methods in terms of lip-sync, head pose naturalness, identity preservation, and video quality.

Official Website