Представляем GAIA: Новое поколение в создании разговаривающих аватаров с нулевой настройкой

Создание разговаривающих аватаров с нулевой настройкой включает синтез реалистичных разговаривающих видео, используя всего одно изображение портрета и соответствующую речь. Традиционные методы часто полагались на специфические эвристики, связанные с определенной областью, такие как представление движения на основе искажений и 3D-моделирование. Однако эти методы накладывали ограничения на естественность и разнообразие аватаров.

Мы представляем GAIA (Generative AI для аватара), инновационную систему, разработанную для устранения необходимости в доменных предпосылках в процессе создания аватара.

GAIA работает на основе наблюдения: в то время как речь управляет движением аватара, его внешность и фон остаются неизменными на протяжении видео. Мы сократили этот процесс до двух основных этапов:

  1. Разделение каждого кадра на отдельные представления движения и внешности.
  2. Генерация последовательностей движения на основе речи и портретного изображения в качестве справки.

Для оптимизации GAIA мы обучили модель на крупномасштабном высококачественном наборе данных разговаривающих аватаров разных масштабов (до 2 млрд. параметров). Результаты? GAIA превзошла предыдущие модели по следующим параметрам:

  • Естественность,
  • Разнообразие,
  • Синхронизация губ,
  • Визуальное качество.

Кроме того, GAIA масштабируема (большие модели дают лучшие результаты) и гибкая, поддерживая приложения от создания управляемых разговаривающих аватаров до создания аватаров на основе текстовых инструкций.

Хотите узнать, как работает GAIA? Посмотрите диаграмму здесь:

Схема GAIA

Official Website

Speech-driven Talking Avatar Generation-1
Speech-driven Talking Avatar Generation-2
Speech-driven Talking Avatar Generation-3
Video-driven Talking Avatar Generation-1
Video-driven Talking Avatar Generation-2
Pose-controllable Talking Avatar Generation
Fully Controllable Talking Avatar Generation
Textual Instruction: Sad
Textual Instruction: Open your mouth
Textual Instruction: Surprise

Official Website