Présentation de GAIA: La prochaine génération de création d’avatar parlant sans besoin d’apprentissage préalable.
La génération d’avatar parlant sans besoin d’apprentissage préalable consiste à synthétiser des vidéos parlantes réalistes en utilisant simplement une seule image de portrait et la parole correspondante. Les techniques traditionnelles se basaient souvent sur des heuristiques spécifiques au domaine telles que la représentation du mouvement basée sur la distorsion et les modèles morphables en 3D. Cependant, ces méthodes limitaient la naturalité et la variété de l’avatar.
Nous présentons GAIA (IA générative pour avatar), un système innovant conçu pour éliminer le besoin de prérequis de domaine dans le processus de génération d’avatar.
GAIA se base sur une observation : tandis que la parole dirige le mouvement de l’avatar, son apparence et son arrière-plan restent constants pendant toute la durée de la vidéo. Nous avons résumé ce processus en deux étapes clés :
- Désentrelacer chaque image en des représentations distinctes du mouvement et de l’apparence.
- Générer des séquences de mouvement en fonction de la parole et de l’image de portrait de référence.
Pour optimiser GAIA, nous avons entraîné le modèle sur un vaste ensemble de données d’avatar parlant de haute qualité à différentes échelles (jusqu’à 2 milliards de paramètres). Les résultats ? GAIA surpasse les modèles précédents en termes de :
- Naturalité,
- Variété,
- Qualité de synchronisation des lèvres et
- Qualité visuelle.
De plus, GAIA est évolutive (de plus grands modèles donnent de meilleurs résultats) et polyvalente, prenant en charge des applications allant de la génération d’avatar parlant contrôlable à la génération d’avatar basée sur du texte.
Vous vous demandez comment GAIA fonctionne ? Consultez le schéma ici :
Speech-driven Talking Avatar Generation-1
Speech-driven Talking Avatar Generation-2
Speech-driven Talking Avatar Generation-3
Video-driven Talking Avatar Generation-1
Video-driven Talking Avatar Generation-2
Pose-controllable Talking Avatar Generation
Fully Controllable Talking Avatar Generation
Textual Instruction: Sad
Textual Instruction: Open your mouth
Textual Instruction: Surprise