Stellen Sie EMO vor, ein innovatives Framework von Alibaba Group, das statische Porträts mit Hilfe von Audio zum Leben erweckt. Einfach ein Referenzbild und einen Audioclip, wie zum Beispiel Sprechen oder Singen, bereitstellen und EMO zaubert daraus sprachgesteuerte Avatar-Videos. Diese Videos zeichnen sich nicht nur durch ausdrucksstarke Gesichtsbewegungen aus, sondern bieten auch vielfältige Kopfpositionen, die sich an die Dauer des bereitgestellten Audios anpassen.

Wie EMO funktioniert: EMO beinhaltet zwei Hauptphasen:

  1. Frame-Kodierung: Mit Hilfe von ReferenceNet werden das Referenzbild und die Bewegungsframes analysiert, um wesentliche Merkmale zu erfassen.
  2. Diffusionsprozess: Ein vortrainierter Audio-Encoder für Audio-Einbettungen wird verwendet, der zusammen mit einer Gesichtsregionsmaske und einem Multi-Frame-Rauschen kombiniert wird. Das Backbone-Netzwerk, das mit Reference-Attention- und Audio-Attention-Mechanismen ausgestattet ist, entfernt dann das Rauschen aus diesen Informationen. Diese Schritte gewährleisten, dass die Identität des Charakters erhalten bleibt und gleichzeitig die Dynamik des Audios mit Hilfe von Gesichtsausdrücken und Kopfbewegungen präzise widergespiegelt wird. Um einen nahtlosen Videofluss zu gewährleisten, werden temporale Module zur Anpassung der Bewegungsgeschwindigkeit verwendet.

Erleben Sie die Magie:

  • Singende Porträts: Verwandeln Sie ein statisches Charakterbild in einen singenden Avatar mit voller emotionaler Tiefe und unterschiedlichen Kopfpositionen. Unabhängig von der Länge des Audios bleibt die Identität des Charakters in unseren Videos konstant.

Zweck und Inspiration: Dieses Projekt dient akademischer Forschung und der Präsentation von Effekten. Es ist ein Beleg für das Engagement der Alibaba Group, die Grenzen der Künstlichen Intelligenz und des maschinellen Lernens zu erweitern. Das Framework baut auf den Grundlagen des Nerfies-Projekts auf und zeigt unsere Innovationskraft.

Tauchen Sie ein in die Welt animierter Porträts mit EMO, wo Ihre Stimme Bilder auf noch nie dagewesene Weise zum Leben erweckt.
Official Website

demonstrates its power

EMO-Framework der Alibaba Group - Statisches Porträt einer Person mit Audioeingabe und Erstellung eines daraus resultierenden Sprach-Avatar-Videos.

Official Website