バイトダンスによる画期的なビデオ制御技術「Boximator」をご紹介します。これは、デュアルボックス制約を介して、ビデオ要素の軌道と寸法を前例のない精度で指示できるツールです。
Boximatorの仕組み:
-
デュアルボックス制約: 「ハードボックス」を使用してオブジェクトの正確な開始位置や終了位置、サイズを特定し、明確な構成フレームワークを確立します。 「ソフトボックス」を適用することで、柔軟な移動の境界線を示し、オブジェクトを確立されたハードボックスの点の間でスムーズに誘導します。
-
自己学習アプローチ: Boximatorの自己追跡能力により、システムは直感的にオブジェクトの移動を追跡し、フレームごとのユーザーの入力なしで事前に定義された動きを滑らかに表現します。
-
ビデオ合成 101: ユーザーの入力とBoximatorの予測力の相乗効果により、自然でユーザー定義のオブジェクトの遷移を備え、ビジュアルストーリーテリングの目的を達成したビデオが作成されます。
実用例:
例えば、子猫がテーブルを飛び越える映像を作成するとします:
- 子猫が静かに始まるテーブルの一方の端に「ハードボックス」を設定します。
- ジャンプの目的地を示すため、反対側のテーブルの「ハードボックス」を配置します。
- 「ソフトボックス」を使用して、飛び越える弧を表現し、リアルな軌道を確保します。
- Boximatorに飛び越えるアニメーションを作成させ、必要に応じて追加のソフトボックスでリアリズムを向上させます。
基本的なビデオモデルの重みを保持しながら、Boximatorはオブジェクトの動きを制御し、元の品質と知識を保持することで、より幅広い制御と応用範囲を提供します。
幅広い統合:
プラグインとして設計されたBoximatorは、多様なビデオ拡散モデルにシームレスに適応し、さまざまな創造的な課題に役立ちます。
完全なリサーチはこちらでご確認いただけます。GitHubのリリースもお楽しみに!
Boximator: Bring Fine-grained Motion Controllability to Video Synthesis | Bytedance Research