تقدم GAIA: الجيل القادم في إنشاء الصور المتحركة بدون الحاجة للحديث
إن إنشاء الصور المتحركة بدون الحاجة للحديث ينطوي على توليد مقاطع فيديو تفاعلية واقعية باستخدام صورة واحدة فقط والخطاب المقابل لها. عادةً ما تعتمد التقنيات التقليدية على قواعد ذات صلة بالمجال مثل تمثيل الحركة القائم على التحريف ونماذج التشكيل الثلاثية الأبعاد. ومع ذلك ، فإن هذه الطرق تفرض قيودًا على طبيعة الصورة المتحركة وتنوعها.
نقدم GAIA (الذكاء الاصطناعي الجيل من أجل الصور المتحركة) ، وهي نظام مبتكر يهدف إلى القضاء على الحاجة إلى الاحتمالات المسبقة في الفئة أثناء عملية إنشاء الصورة المتحركة.
يعمل GAIA من خلال مراعاة ملاحظة: بينما يؤثر الحديث على حركة الصورة المتحركة ، فإن مظهر الصورة والخلفية يظلان ثابتين طوال مدة الفيديو. لقد قمنا بتلخيص هذه العملية في مرحلتين رئيسيتين:
- تحليل كل إطار إلى تمثيلات منفصلة للحركة والمظهر.
- توليد سلاسل حركية استنادًا إلى الخطاب وصورة البورتريه المرجعية.
لتحسين GAIA ، قمنا بتدريب النموذج على مجموعة بيانات واسعة النطاق وعالية الجودة للصور المتحركة المتحدثة في مقاييس متنوعة (تصل إلى 2 مليار معلمة). نتائجنا؟ تفوق GAIA على النماذج السابقة فيما يتعلق بـ:
- الطبيعية
- التنوع
- جودة مزامنة الشفاه، و
- جودة الصورة المرئية.
بالإضافة إلى ذلك ، يعد GAIA قابلاً للتوسع (النماذج الأكبر تؤدي إلى نتائج أفضل) ومتعدد الاستخدامات ، حيث يدعم تطبيقات توليد الصور المتحركة التحكمية وتوليد الصور المتحركة المعطاة نصوح.
تتساءل كيف يعمل GAIA؟ تحقق من الرسم البياني هنا:
Speech-driven Talking Avatar Generation-1
Speech-driven Talking Avatar Generation-2
Speech-driven Talking Avatar Generation-3
Video-driven Talking Avatar Generation-1
Video-driven Talking Avatar Generation-2
Pose-controllable Talking Avatar Generation
Fully Controllable Talking Avatar Generation
Textual Instruction: Sad
Textual Instruction: Open your mouth
Textual Instruction: Surprise