Wir freuen uns, das VividTalk vorzustellen, ein neuartiges Zwei-Stufen-Framework, das entwickelt wurde, um visuell beeindruckende Videos von sprechenden Köpfen zu generieren. Dieses innovative Modell nutzt Audio, um lip-synchronisierte, ausdrucksstarke Gesichtsmerkmale, natürliche Kopfbewegungen und hochauflösende Videos zu erzeugen, Aspekte, die das Interesse vieler erheblich geweckt haben.
In der ersten Stufe mappen wir Audio auf ein Gitter mit Hilfe eines Dual-Motion-Lernsystems, das sowohl nicht-starre Ausdrücke als auch starre Kopfbewegungen umfasst. Dadurch kann das Modell Ausdrucksbewegungen effektiv handhaben, indem es Blendshapes und Vertices als Zwischenmarker verwendet. Für natürliche Kopfbewegungen kommt unser einzigartiger lernbarer Kopfpose-Codebook in Verbindung mit einem zweiphasigen Trainingsmechanismus zum Einsatz.
Die zweite Stufe besteht darin, einen gleichzeitigen Bewegung-VAE-Zweig und einen Generator einzuführen, die die Umwandlung von Gittern in dichte Bewegungen ermöglichen und gleichzeitig qualitativ hochwertige Videos frame-by-frame synthetisieren.
Unsere umfangreichen Tests zeigen, dass VividTalk effektiv hochauflösende lip-synchrone Videos von sprechenden Köpfen erzeugt, die einen realistischen Eindruck vermitteln. Es übertrifft signifikant frühere Spitzenmodelle sowohl in objektiven als auch in subjektiven Vergleichen.
Möchten Sie sehen, wie VividTalk realistische und lip-synchrone Videos von sprechenden Köpfen mit ausdrucksstarken Gesichtsausdrücken und natürlichen Kopfbewegungen animiert? Besuchen Sie unsere Website für einen exklusiven Einblick hier. Sobald das Paper veröffentlicht ist, werden wir den Code öffentlich zugänglich machen.
VividTalk supports animating facial images across various styles, such as human, realism, and cartoon.
Using VividTalk you create talking head videos according to various audio singal.
The comparison between VividTalk and state-of-the-art methods in terms of lip-sync, head pose naturalness, identity preservation, and video quality.