GAIAをご紹介します:ゼロショット会話アバターの次世代を創り出す

ゼロショット会話アバター生成は、単一のポートレート画像と対応する音声のみを使用して、リアルな会話動画を合成する技術です。従来の技術では、ワーピングベースのモーション表現や3Dモーファブルモデルなど、特定のドメインに関連したヒューリスティックを用いることが一般的でした。しかし、これらの手法はアバターの自然さやバリエーションに制約を与えることがありました。

我々は、「アバターの動きは音声によって駆動されるが、外見と背景はビデオの期間中一定である」という観察結果に基づき、ドメイン関連の先行知識を必要としない革新的なシステムであるGAIA(AvatarのためのGenerative AI)を提案します。

GAIAは、2つの主要な段階からなるプロセスを進めます:

  1. 各フレームをモーションと外見の別々の表現に分離すること。
  2. 音声と参照ポートレート画像に基づいてモーションシークエンスを生成すること。

GAIAを最適化するために、私たちはさまざまなスケール(最大で2Bのパラメータ)の大規模で高品質なアバターデータセットでモデルを訓練しました。その結果、GAIAは以下の点で従来のモデルを凌駕しました:

  • 自然さ
  • バリエーション
  • リップシンク品質
  • 視覚品質

さらに、GAIAはスケーラブル(より大規模なモデルほど優れた結果が得られます)であり、コントロール可能な会話アバター生成からテキスト指示に基づくアバター生成まで、幅広いアプリケーションをサポートしています。

GAIAの仕組みについて詳しく知りたいですか?以下のダイアグラムをご覧ください:

GAIAのフレームワーク

Official Website

Speech-driven Talking Avatar Generation-1
Speech-driven Talking Avatar Generation-2
Speech-driven Talking Avatar Generation-3
Video-driven Talking Avatar Generation-1
Video-driven Talking Avatar Generation-2
Pose-controllable Talking Avatar Generation
Fully Controllable Talking Avatar Generation
Textual Instruction: Sad
Textual Instruction: Open your mouth
Textual Instruction: Surprise

Official Website