介绍VidToMe - 这可能是您一直在等待的开源Gen-1! VidToMe拥有丰富的选项,可用于文本提示视频编辑、自定义模型和ControlNet引导,提供出色的时间一致性。只需一个像素艺术示例,就能让您着迷!

扩散模型开创了高质量图像生成的先河,但由于时间运动复杂性,其视频生成应用遇到了阻碍。这就是零样本视频编辑介入的地方,将预训练的图像扩散模型应用于重新格式化原始视频。然而,仍然存在保持时间一致性和高效内存使用的问题。

我们采取了一个新的方式来解决这些问题。我们通过在帧之间交织自注意力标记来增强生成视频的时间一致性。通过对时间上冗余的标记进行对齐和压缩,我们提高了时间上的连贯性,并减少了内存使用。我们独特的合并过程根据视频帧之间的时间关系对齐标记,确保自然一致的视频内容。

VidToMe处理视频处理的繁重工作。我们将视频分成块,并应用块内局部标记合并和块间全局标记合并。这种方法保证了视频内容的短期和长期的连续性和一致性。作为图像和视频编辑之间的桥梁,我们的视频编辑技术在保持时间一致性方面超越了当前行业标准。

Official Website

Build web-apps using plain english

VidToMe: Video Token Merging for Zero-Shot Video Editing

VidToMe标志 - 一张VidToMe标志的图像,以粗体字和现代设计的方式呈现“VidToMe”文字。

VidToMe界面- VidToMe界面的屏幕截图,展示了各种选项,用于文本提示视频编辑、自定义模型和ControlNet引导,为用户提供卓越的视频生成时序一致性。

Official Website