Découvrez EMO, un cadre innovant conçu par le groupe Alibaba pour donner vie à des portraits statiques grâce à la puissance de l’audio. Il vous suffit de fournir une seule image de référence et un extrait audio, tel que des paroles ou une chanson, et EMO opère sa magie pour créer des vidéos d’avatar vocal. Ces vidéos sont non seulement expressives grâce aux mouvements faciaux, mais elles présentent également des poses de tête variées, capables de correspondre à la durée de l’audio que vous avez fourni.

Comment fonctionne EMO: EMO fonctionne en deux étapes principales :

  1. Encodage des images clés: Utilise ReferenceNet pour analyser l’image de référence et les images clés de mouvement, en capturant les caractéristiques essentielles.
  2. Processus de diffusion: Intègre un encodeur audio pré-entraîné pour les incrustations audio, en le mélangeant avec un masque de région faciale et du bruit à plusieurs images. Le réseau Backbone, équipé de mécanismes d’attention de référence et d’attention audio, débruite ensuite ces informations. Ces étapes garantissent l’intégrité de l’identité du personnage tout en reflétant avec précision les dynamiques audio à travers les expressions faciales et les mouvements de tête. Pour assurer une transition vidéo fluide, les modules temporels ajustent la vitesse du mouvement.

Découvrez la magie:

  • Portraits chantants: Transformez une image de personnage statique en un avatar chantant avec une profondeur émotionnelle totale et des poses de tête variables. Quelle que soit la durée de l’audio, notre technologie maintient la cohérence de l’identité du personnage tout au long de la vidéo.

Objectif et inspiration: Ce projet est conçu pour la recherche universitaire et pour mettre en valeur les effets. Il témoigne de l’engagement du groupe Alibaba à repousser les limites de l’IA et de l’apprentissage automatique. Le cadre repose sur les fondations établies par le projet Nerfies, démontrant notre dévouement à l’innovation.

Plongez dans le monde des portraits animés avec EMO, où votre voix donne vie aux images de manière inédite.
Official Website

demonstrates its power

Cadre EMO par le groupe Alibaba : portrait statique d’une personne avec une entrée audio et création d’une vidéo d’avatar vocal résultante.

Official Website