Мы с радостью представляем VividTalk — новую двухэтапную конструкцию, разработанную для создания визуально ярких видеороликов с говорящей головой. Эта инновационная модель использует звук для создания синхронности губ, выразительных фациальных особенностей, естественной позы головы и видеороликов высокого разрешения, что значительно привлекло внимание многих.
На первом этапе мы отображаем звук на поверхность, используя систему двойного обучения движению, охватывающую как нерегулярные выражения, так и жесткое движение головы. Это позволяет модели эффективно обрабатывать движение выражений, используя промежуточные маркеры в виде смешивания форм и вершин. Для естественных движений головы на помощь приходит наш уникальный обучаемый кодбук позы головы, сопровождающийся двухфазовым механизмом обучения.
Второй этап предполагает введение параллельного ветвления motion-VAE и генератора, которые облегчают преобразование поверхностей в плотное движение, синтезируя видеоролики высокого качества кадр за кадром.
Наши интенсивные испытания показывают, что VividTalk успешно создает видеоролики высокого разрешения с синхронизированными губами и повышенным реализмом говорящей головы. Она значительно превосходит предыдущие модели верхнего уровня как по объективным, так и по субъективным критериям сравнения.
Хотите посмотреть, как VividTalk анимирует реалистичные видеоролики с говорящей головой, сопровождаемые выразительными фациальными особенностями и естественной позой головы? Посетите наш веб-сайт, чтобы получить предварительный просмотр здесь. Как только статья будет опубликована, мы опубликуем код общественности.
VividTalk supports animating facial images across various styles, such as human, realism, and cartoon.
Using VividTalk you create talking head videos according to various audio singal.
The comparison between VividTalk and state-of-the-art methods in terms of lip-sync, head pose naturalness, identity preservation, and video quality.