تقدم EMO الإطار الجديد والمبتكر من Alibaba Group لإحياء الصور الثابتة بقوة الصوت. قم بتوفير صورة مرجعية ومقطع صوتي واحد، مثل الكلام أو الغناء، وسيقوم EMO بإبداعه لإنشاء فيديوهات أفاتار صوتية. هذه الفيديوهات لا تتميز فقط بحركات الوجه التعبيرية ولكنها تتضمن أيضًا مواقف رأس متنوعة، قادرة على مطابقة مدة الصوت الذي قدّمته.
كيف يعمل EMO: يعمل EMO في مرحلتين رئيسيتين:
- تشفير الإطارات: يستخدم ReferenceNet لتحليل صورة المرجع وإطارات الحركة، مما يسمح بالتقاط الميزات الأساسية.
- عملية الانتشار: يدمج مشفر الصوت المدرب مسبقًا للحصول على تضمينات صوتية، ويلبسها قناع منطقة الوجه وضوضاء متعددة الإطارات. يقوم الشبكة الأساسية، المزودة بآليات التركيز على المرجع والصوت، بتنظيف هذه المعلومات. تضمن هذه الخطوات بقاء هوية الشخصية وفقًا للصورة المرجعية مع انعكاس دقيق لديناميات الصوت من خلال التعبيرات الوجهية وحركات الرأس. ولضمان سير الفيديو بسلاسة، تقوم الوحدات الزمنية بتعديل سرعة الحركة.
استكشف السحر:
- صور غنائية: قم بتحويل صورة شخصية ساكنة إلى شخصية غنائية ذات عمق عاطفي ومواقف رأس متنوعة. بغض النظر عن طول الصوت، تحافظ تقنيتنا على استقرار هوية الشخصية طوال الفيديو.
الغرض والإلهام: تم تصميم هذا المشروع للبحث الأكاديمي وعرض التأثيرات. إنه عبارة عن برهان على التزام مجموعة Alibaba بدفع حدود الذكاء الاصطناعي وتعلم الآلة. يتم بناء هذا الإطار على الأساسات التي أرساها مشروع Nerfies، مما يبرز التفاني لدينا في الابتكار.
انغمس في عالم الصور المتحركة مع EMO، حيث يجعل صوتك الصور تتحرك بطرق فريدة ولا مثيل لها.
Official Website
demonstrates its power