نحن متحمسون للكشف عن VividTalk، بروتوكول مبتكر مكون من مرحلتين مصمم لإنتاج فيديوهات تعابير الوجه ذات جودة بصرية عالية. يستغل هذا النموذج المبتكر الصوت لإنشاء ملتحق بالشفاه وتعابير الوجه العاطفية وإنتاج وضعية الرأس الطبيعية والفيديوهات عالية الدقة، وهي جوانب أثارت اهتمام كبير من قبل العديد من الأشخاص.
في المرحلة الأولى، نقوم بتطبيق تناغم الصوت على شبكة باستخدام نظام تعلم ثنائي الحركة يشمل على حد سواء التعابير غير المرنة وحركة الرأس المرنة. هذا يمكن النموذج من التعامل بشكل فعال مع حركة التعبير عن طريق استخدام blendshape ونقاط الفروع كعلامات وسيطة. بالنسبة للحركات الطبيعية للرأس، نستخدم الصوت الفريد القابل للتعلم، المصاحب لرموز تعابير الرأس وآلية تدريب مرحلتين.
تأتي المرحلة الثانية بتقديم فرعين، وهما concurrent branch motion-VAE ومنتج يُسهمان في تحويل الشبكات إلى حركة كثيفة مع تخليق فيديوهات بجودة متفوقة إطارًا بإطار.
تشير اختباراتنا المكثفة إلى أن VividTalk ينتج بفعالية فيديوهات رأس يتكلم بجودة عالية ومتزامنة مع الشفاه، مع تعزيز الواقعية. إنه يتفوق بشكل كبير على نماذج المستوى الأعلى السابقة في القياسات الهدفية والمقارنات الذاتية.
هل ترغب في مشاهدة كيف يحرك VividTalk فيديوهات رؤوس يتكلمون واقعية ومتزامنة مع تعابير الوجه العاطفية ووضعيات الرأس الطبيعية؟ قم بزيارة موقعنا على الويب لمعاينة سريعة هنا. بمجرد نشر الورقة، سنتوفر الشفرة للجمهور.
VividTalk supports animating facial images across various styles, such as human, realism, and cartoon.
Using VividTalk you create talking head videos according to various audio singal.
The comparison between VividTalk and state-of-the-art methods in terms of lip-sync, head pose naturalness, identity preservation, and video quality.