Представляем GAIA: Новое поколение в создании разговаривающих аватаров с нулевой настройкой
Создание разговаривающих аватаров с нулевой настройкой включает синтез реалистичных разговаривающих видео, используя всего одно изображение портрета и соответствующую речь. Традиционные методы часто полагались на специфические эвристики, связанные с определенной областью, такие как представление движения на основе искажений и 3D-моделирование. Однако эти методы накладывали ограничения на естественность и разнообразие аватаров.
Мы представляем GAIA (Generative AI для аватара), инновационную систему, разработанную для устранения необходимости в доменных предпосылках в процессе создания аватара.
GAIA работает на основе наблюдения: в то время как речь управляет движением аватара, его внешность и фон остаются неизменными на протяжении видео. Мы сократили этот процесс до двух основных этапов:
- Разделение каждого кадра на отдельные представления движения и внешности.
- Генерация последовательностей движения на основе речи и портретного изображения в качестве справки.
Для оптимизации GAIA мы обучили модель на крупномасштабном высококачественном наборе данных разговаривающих аватаров разных масштабов (до 2 млрд. параметров). Результаты? GAIA превзошла предыдущие модели по следующим параметрам:
- Естественность,
- Разнообразие,
- Синхронизация губ,
- Визуальное качество.
Кроме того, GAIA масштабируема (большие модели дают лучшие результаты) и гибкая, поддерживая приложения от создания управляемых разговаривающих аватаров до создания аватаров на основе текстовых инструкций.
Хотите узнать, как работает GAIA? Посмотрите диаграмму здесь:
Speech-driven Talking Avatar Generation-1
Speech-driven Talking Avatar Generation-2
Speech-driven Talking Avatar Generation-3
Video-driven Talking Avatar Generation-1
Video-driven Talking Avatar Generation-2
Pose-controllable Talking Avatar Generation
Fully Controllable Talking Avatar Generation
Textual Instruction: Sad
Textual Instruction: Open your mouth
Textual Instruction: Surprise