vidtome diffusion

Представляем VidToMe - возможно, это open-source Gen-1, которого вы ждали! Обладая множеством опций для редактирования видео с текстовыми промптомами, моделями на заказ и руководством ControlNet, VidToMe обеспечивает исключительную временную согласованность. Вам потребуется всего один пример пиксельного искусства, чтобы вас завлечь!

Диффузионные модели покорили высококачественную генерацию изображений, однако их применение для генерации видео сталкивается с трудностями из-за сложностей с временными движениями. Именно здесь на сцену выходит редактирование видео без предварительного обучения, применяя уже обученные модели диффузии изображений для переформатирования исходных видео. Однако такие проблемы, как поддержание временной согласованности и эффективное использование памяти, остаются.

Мы придумали новый подход для решения этих проблем. Мы повышаем временную согласованность в создаваемых видео, вплетая самоорганизующиеся токены в кадры. Путем выравнивания и сжатия временно избыточных токенов мы улучшаем временную связность и сокращаем использование памяти. Наш уникальный процесс слияния выстраивает токены на основе временных связей между кадрами видео, обеспечивая естественную согласованность видеоконтента.

VidToMe обрабатывает тяжелую работу по обработке видео. Мы разбиваем видео на части и применяем внутричастное локальное слияние токенов и межчастное глобальное слияние токенов. Этот подход гарантирует короткосрочную и долгосрочную связность и согласованность видеоконтента. Связывая изображение и редактирование видео, наша техника редактирования видео превосходит существующие стандарты отрасли по поддержанию временной согласованности.

Official Website

Build web-apps using plain english

VidToMe: Video Token Merging for Zero-Shot Video Editing

Логотип VidToMe - изображение логотипа VidToMe, включающего текст “VidToMe” насыщенным шрифтом с современным дизайном.

Интерфейс VidToMe - Снимок экрана интерфейса VidToMe, демонстрирующий различные варианты редактирования видео с помощью текстовой подсказки, пользовательских моделей и руководства ControlNet, обеспечивающих пользователям исключительную временную согласованность в генерации видео.

Official Website