VidToMeをご紹介します - これはお待ちかねのオープンソースの第1世代かもしれません!テキストプロンプトビデオ編集、カスタムモデル、および「ControlNetガイダンス」などのオプションがたくさん詰まっており、VidToMeは優れた時間的一貫性を提供します。1つのピクセルアートの例で、その魅力にどっぷり浸かることでしょう!
拡散モデルは高品質な画像生成を先導してきましたが、テンポラルモーションの複雑さにより、ビデオ生成の応用につまずいています。この問題には、ゼロショットビデオ編集が介入し、事前学習された画像拡散モデルを使用して元のビデオを再構成します。しかし、時間的一貫性の維持や効率的なメモリ使用などの問題が残っています。
私たちはこれらの問題を解決するために新たなアプローチを取りました。フレーム間に自己注意トークンを織り交ぜることで、生成されたビデオの時間的一貫性を向上させます。時間的に冗長なトークンを整列させ、圧縮することで、時間的な一貫性を高め、メモリ使用量を削減します。私たちのユニークなマージングプロセスでは、ビデオフレーム間の時間的関係に基づいてトークンを整列させることで、自然な一貫したビデオコンテンツを保証します。
VidToMeはビデオ処理の重労働を処理します。ビデオをチャンクに分割し、イントラチャンクのトークンマージングとインターチャンクのグローバルトークンマージングを適用します。このアプローチにより、ビデオコンテンツの短期および長期的な連続性と一貫性を保証します。画像とビデオの編集の隔たりを埋め、私たちのビデオ編集技術は現在の業界基準を超える時間的一貫性の維持を実現します。
Build web-apps using plain english
VidToMe: Video Token Merging for Zero-Shot Video Editing