发掘字节跳动的开创性视频控制技术Boximator,这是一种工具,通过双重框约束,让您以前所未有的精确度来指定视频元素的轨迹和尺寸。

Boximator的工作原理:

  • 双重框约束: 使用硬框来确定物体的确切起始和结束位置以及大小,建立清晰的构图框架。使用软框来提示灵活的移动边界,使物体在已确定的硬框点之间平滑移动。

  • 自学习方法: Boximator的自我跟踪能力使系统可以直观地跟随物体的运动,确保事先定义的动作无缝地表达,无需逐帧用户输入。

  • 视频合成 101: 用户输入和Boximator的预测能力的协同使视频展现出自然、用户定义的物体转换,并达到视觉叙事的目标。

实际应用:

举个例子,想象制作一个视频,其中小猫跃过一张桌子:

  1. 使用硬框在一端的桌子上标记小猫平静的起点。
  2. 在对面的桌子上设置一个硬框来定义跳跃的目标。
  3. 使用软框来描述跳跃的弧线,确保贴近真实的轨迹。
  4. 让Boximator来动画化跳跃,并使用额外的软框进行微调,以获得更逼真的效果。

总的来说,通过结合硬框软框,用户可以获得对视频对象运动的强大控制能力,适应从简单跳跃到复杂场景的各种情况。

增强基础模型能力:

Boximator在保持基础视频模型权重的同时,增强了物体运动控制能力,同时保留了原始的质量和知识,这种融合提供了更多的控制和应用广度。

广泛的集成:

作为一个插件,Boximator可以无缝地适应各种视频传播模型,扩大了在各种创意挑战中的实用性。

点击这里查看完整的研究链接。敬请期待GitHub发布!

Official Website

Boximator: Bring Fine-grained Motion Controllability to Video Synthesis | Bytedance Research

Official Website