Представляем VidToMe - возможно, это open-source Gen-1, которого вы ждали! Обладая множеством опций для редактирования видео с текстовыми промптомами, моделями на заказ и руководством ControlNet, VidToMe обеспечивает исключительную временную согласованность. Вам потребуется всего один пример пиксельного искусства, чтобы вас завлечь!
Диффузионные модели покорили высококачественную генерацию изображений, однако их применение для генерации видео сталкивается с трудностями из-за сложностей с временными движениями. Именно здесь на сцену выходит редактирование видео без предварительного обучения, применяя уже обученные модели диффузии изображений для переформатирования исходных видео. Однако такие проблемы, как поддержание временной согласованности и эффективное использование памяти, остаются.
Мы придумали новый подход для решения этих проблем. Мы повышаем временную согласованность в создаваемых видео, вплетая самоорганизующиеся токены в кадры. Путем выравнивания и сжатия временно избыточных токенов мы улучшаем временную связность и сокращаем использование памяти. Наш уникальный процесс слияния выстраивает токены на основе временных связей между кадрами видео, обеспечивая естественную согласованность видеоконтента.
VidToMe обрабатывает тяжелую работу по обработке видео. Мы разбиваем видео на части и применяем внутричастное локальное слияние токенов и межчастное глобальное слияние токенов. Этот подход гарантирует короткосрочную и долгосрочную связность и согласованность видеоконтента. Связывая изображение и редактирование видео, наша техника редактирования видео превосходит существующие стандарты отрасли по поддержанию временной согласованности.
Build web-apps using plain english
VidToMe: Video Token Merging for Zero-Shot Video Editing