Новый проект Google под названием VLOGGER забирает цифровую коммуникацию на новый уровень, создавая видео с реалистичной речью персонажей по изображениям и звуковым данным. Хотя он все еще находится на пути к достижению естественности соперников, VLOGGER выделяется своим инновационным подходом.
Что такое VLOGGER? VLOGGER превращает текстовые и звуковые данные в динамические видео с озвучивающими персонажами, используя снимок человека. Используя современные генеративные модели диффузии, он вводит новую смесь технологий, оживляя статичные изображения.
Основные функции VLOGGER:
- Создание динамического движения: С помощью сложной стохастической модели диффузии движения человеческого тела в 3D, VLOGGER улавливает и анимирует нюансы поведения человека.
- Преобразование текста в изображение: Он расширяет пределы моделей преобразования текста в изображение с помощью уникальной диффузионной архитектуры, позволяющей детальное пространственно-временное управление.
Технология, лежащая в основе VLOGGER, позволяет создавать видео высокого качества разной продолжительности. Эти видео обладают высокой степенью контроля над представлениями лица и тела, предлагая пользователям инструмент, который не только продвинут, но и гибок.
Почему VLOGGER выделяется:
- Универсальное применение: В отличие от предыдущих моделей, требующих обучения для каждого человека, VLOGGER адаптивен универсально.
- Голистическое создание изображения: Он выходит за рамки простого определения лица, создавая видео с полноценными персонажами без необходимости обрезки.
- Универсальность: VLOGGER подходит для широкого спектра сценариев, включая видимость всего торса и различные идентичности, обеспечивая комплексный синтез виртуального человека.
Благодаря этим достижениям, VLOGGER прокладывает путь для более подлинных и доступных виртуальных взаимодействий с людьми на различных цифровых платформах.
Official Website
demonstration