Представляем вам EMO - инновационную разработку Alibaba Group, созданную для оживления статичных портретов с помощью звукового сопровождения. Достаточно предоставить только одно изображение и аудиофрагмент, который может быть голосом или пением, и EMO своими умениями создаст видео с вокальным аватаром. Эти видео не только выразительны в движении лица, но также позволяют изменять положение головы, сопоставляя его с длительностью предоставленного аудио.
Как работает EMO: EMO работает в двух основных этапах:
- Кодирование кадров: Используется ReferenceNet для анализа исходного изображения и движения кадров, выявляя основные особенности.
- Процесс диффузии: В него включена предварительно обученная аудио-кодировщиком энкодер для аудио-вложений, который совмещается с маской области лица и шумом из нескольких кадров. Бэкбон-сеть, оснащенная механизмами внимания к ссылкам и звуковому сопровождению, осуществляет денойзинг этой информации. Все эти шаги гарантируют сохранение индивидуальности персонажа и точное отражение динамики аудио с помощью выражений лица и движений головы. Для плавного потока видео временные модули регулируют скорость движения.
Погрузитесь в волшебство:
- Цветные портреты с пением: Превратите статичное изображение персонажа в аватар с пением с полной эмоциональной глубиной и изменяющимися положениями головы. Независимо от длительности аудиофрагмента, наша технология сохраняет единообразие визуального образа персонажа на протяжении всего видео.
Цель и вдохновение: Этот проект создан для академического исследования и демонстрации эффектов. Он является свидетельством нашего стремления Alibaba Group к расширению границ искусственного интеллекта и машинного обучения. Фреймворк создан на основе проекта Nerfies, демонстрируя нашу преданность инновациям.
Погрузитесь в мир анимированных портретов с EMO, где ваш голос придает изображениям жизнь в небывалых формах.
Official Website
demonstrates its power