トーキング・アバター合成

GAIAをご紹介します：ゼロショット会話アバターの次世代を創り出すゼロショット会話アバター生成は、単一のポートレート画像と対応する音声のみを使用して、リアルな会話動画を合成する技術です。従来の技術では、ワーピングベースのモーション表現や3Dモーファブルモデルなど、特定のドメインに関連したヒューリスティックを用いることが一般的でした。しかし、これらの手法はアバターの自然さやバリエーションに制約を与えることがありました。我々は、「アバターの動きは音声によって駆動されるが、外見と背景はビデオの期間中一定である」という観察結果に基づき、ドメイン関連の先行知識を必要としない革新的なシステムであるGAIA（AvatarのためのGenerative AI）を提案します。 GAIAは、2つの主要な段階からなるプロセスを進めます：各フレームをモーションと外見の別々の表現に分離すること。音声と参照ポートレート画像に基づいてモーションシークエンスを生成すること。 GAIAを最適化するために、私たちはさまざまなスケール（最大で2Bのパラメータ）の大規模で高品質なアバターデータセットでモデルを訓練しました。その結果、GAIAは以下の点で従来のモデルを凌駕しました：自然さバリエーションリップシンク品質視覚品質さらに、GAIAはスケーラブル（より大規模なモデルほど優れた結果が得られます）であり、コントロール可能な会話アバター生成からテキスト指示に基づくアバター生成まで、幅広いアプリケーションをサポートしています。 GAIAの仕組みについて詳しく知りたいですか？以下のダイアグラムをご覧ください： Official Website Your browser does not support the video tag. Speech-driven Talking Avatar Generation-1 Your browser does not support the video tag. Speech-driven Talking Avatar Generation-2 Your browser does not support the video tag. Speech-driven Talking Avatar Generation-3 Your browser does not support the video tag. Video-driven Talking Avatar Generation-1 Your browser does not support the video tag....