GAIAをご紹介します:ゼロショット会話アバターの次世代を創り出す
ゼロショット会話アバター生成は、単一のポートレート画像と対応する音声のみを使用して、リアルな会話動画を合成する技術です。従来の技術では、ワーピングベースのモーション表現や3Dモーファブルモデルなど、特定のドメインに関連したヒューリスティックを用いることが一般的でした。しかし、これらの手法はアバターの自然さやバリエーションに制約を与えることがありました。
我々は、「アバターの動きは音声によって駆動されるが、外見と背景はビデオの期間中一定である」という観察結果に基づき、ドメイン関連の先行知識を必要としない革新的なシステムであるGAIA(AvatarのためのGenerative AI)を提案します。
GAIAは、2つの主要な段階からなるプロセスを進めます:
- 各フレームをモーションと外見の別々の表現に分離すること。
- 音声と参照ポートレート画像に基づいてモーションシークエンスを生成すること。
GAIAを最適化するために、私たちはさまざまなスケール(最大で2Bのパラメータ)の大規模で高品質なアバターデータセットでモデルを訓練しました。その結果、GAIAは以下の点で従来のモデルを凌駕しました:
- 自然さ
- バリエーション
- リップシンク品質
- 視覚品質
さらに、GAIAはスケーラブル(より大規模なモデルほど優れた結果が得られます)であり、コントロール可能な会話アバター生成からテキスト指示に基づくアバター生成まで、幅広いアプリケーションをサポートしています。
GAIAの仕組みについて詳しく知りたいですか?以下のダイアグラムをご覧ください:
Speech-driven Talking Avatar Generation-1
Speech-driven Talking Avatar Generation-2
Speech-driven Talking Avatar Generation-3
Video-driven Talking Avatar Generation-1
Video-driven Talking Avatar Generation-2
Pose-controllable Talking Avatar Generation
Fully Controllable Talking Avatar Generation
Textual Instruction: Sad
Textual Instruction: Open your mouth
Textual Instruction: Surprise