Googleの新しいプロジェクト、VLOGGERは、画像と音声から現実的なキャラクターのスピーチビデオを生成することで、デジタルコミュニケーションを次のレベルに引き上げています。まだ他の一部と比べて実物に近い自然さを実現する途中ではありますが、VLOGGERは革新的なアプローチで際立っています。
VLOGGERとは? VLOGGERは、人物のスナップショットを使用してテキストと音声入力を動的な話者ビデオに変換します。最先端の生成的拡散モデルの力を活用し、静止画像を活気づけるための新しい技術の組み合わせを導入しています。
VLOGGERの主な特徴:
- **ダイナミックなモーション作成:**高度な確率ベースの人体から3Dモーション拡散モデルを介して、VLOGGERは人間の微妙なニュアンスを捉えてアニメーション化します。
- **テキストから画像への進化:**ユニークな拡散ベースのアーキテクチャにより、テキストから画像モデルの領域を拡大し、詳細な時間軸および空間的な操作を可能にします。
VLOGGERの背後にある技術により、さまざまな長さの高品質なビデオが作成されます。これらのビデオは顔や体の表現に対して高い制御度を維持し、先進的かつ柔軟性のあるツールをユーザーに提供します。
VLOGGERの際立った特徴:
- **汎用性の高さ:**従来のモデルと異なり、VLOGGERは個別のトレーニングを必要とせず、普遍的に適応できます。
- **包括的な画像生成:**VLOGGERは単なる顔検出を超え、トリミングの必要なく完全なキャラクタービデオを生成します。
- **多様性:**VLOGGERは、全身が見える状況やさまざまなアイデンティティに対応し、包括的な仮想人間の合成を実現します。
これらの進歩により、VLOGGERはさまざまなデジタルプラットフォームでより本物らしくアクセス可能なバーチャル人間の相互作用を実現する道を切り開いています。
Official Website
demonstration