vidtome diffusion

介绍VidToMe - 这可能是您一直在等待的开源Gen-1！ VidToMe拥有丰富的选项，可用于文本提示视频编辑、自定义模型和ControlNet引导，提供出色的时间一致性。只需一个像素艺术示例，就能让您着迷！

扩散模型开创了高质量图像生成的先河，但由于时间运动复杂性，其视频生成应用遇到了阻碍。这就是零样本视频编辑介入的地方，将预训练的图像扩散模型应用于重新格式化原始视频。然而，仍然存在保持时间一致性和高效内存使用的问题。

我们采取了一个新的方式来解决这些问题。我们通过在帧之间交织自注意力标记来增强生成视频的时间一致性。通过对时间上冗余的标记进行对齐和压缩，我们提高了时间上的连贯性，并减少了内存使用。我们独特的合并过程根据视频帧之间的时间关系对齐标记，确保自然一致的视频内容。

VidToMe处理视频处理的繁重工作。我们将视频分成块，并应用块内局部标记合并和块间全局标记合并。这种方法保证了视频内容的短期和长期的连续性和一致性。作为图像和视频编辑之间的桥梁，我们的视频编辑技术在保持时间一致性方面超越了当前行业标准。

Build web-apps using plain english

VidToMe: Video Token Merging for Zero-Shot Video Editing

VidToMe标志 - 一张VidToMe标志的图像，以粗体字和现代设计的方式呈现“VidToMe”文字。

VidToMe界面- VidToMe界面的屏幕截图，展示了各种选项，用于文本提示视频编辑、自定义模型和ControlNet引导，为用户提供卓越的视频生成时序一致性。