GAIA | mychatgpt.net - あなたの選択のAI製品情報ウェブサイト

GAIAをご紹介します：ゼロショット会話アバターの次世代を創り出す

ゼロショット会話アバター生成は、単一のポートレート画像と対応する音声のみを使用して、リアルな会話動画を合成する技術です。従来の技術では、ワーピングベースのモーション表現や3Dモーファブルモデルなど、特定のドメインに関連したヒューリスティックを用いることが一般的でした。しかし、これらの手法はアバターの自然さやバリエーションに制約を与えることがありました。

我々は、「アバターの動きは音声によって駆動されるが、外見と背景はビデオの期間中一定である」という観察結果に基づき、ドメイン関連の先行知識を必要としない革新的なシステムであるGAIA（AvatarのためのGenerative AI）を提案します。

GAIAは、2つの主要な段階からなるプロセスを進めます：

各フレームをモーションと外見の別々の表現に分離すること。
音声と参照ポートレート画像に基づいてモーションシークエンスを生成すること。

GAIAを最適化するために、私たちはさまざまなスケール（最大で2Bのパラメータ）の大規模で高品質なアバターデータセットでモデルを訓練しました。その結果、GAIAは以下の点で従来のモデルを凌駕しました：

自然さ
バリエーション
リップシンク品質
視覚品質

さらに、GAIAはスケーラブル（より大規模なモデルほど優れた結果が得られます）であり、コントロール可能な会話アバター生成からテキスト指示に基づくアバター生成まで、幅広いアプリケーションをサポートしています。

GAIAの仕組みについて詳しく知りたいですか？以下のダイアグラムをご覧ください：

Official Website

Speech-driven Talking Avatar Generation-1

Speech-driven Talking Avatar Generation-2

Speech-driven Talking Avatar Generation-3

Video-driven Talking Avatar Generation-1

Video-driven Talking Avatar Generation-2

Pose-controllable Talking Avatar Generation

Fully Controllable Talking Avatar Generation

Textual Instruction: Sad

Textual Instruction: Open your mouth

Textual Instruction: Surprise

Official Website

GAIAをご紹介します：ゼロショット会話アバターの次世代を創り出す#

GAIAをご紹介します：ゼロショット会話アバターの次世代を創り出す