GAIA | mychatgpt.net - موقعك المفضل للحصول على معلومات المنتجات الذكاء الاصطناعي

تقدم GAIA: الجيل القادم في إنشاء الصور المتحركة بدون الحاجة للحديث

إن إنشاء الصور المتحركة بدون الحاجة للحديث ينطوي على توليد مقاطع فيديو تفاعلية واقعية باستخدام صورة واحدة فقط والخطاب المقابل لها. عادةً ما تعتمد التقنيات التقليدية على قواعد ذات صلة بالمجال مثل تمثيل الحركة القائم على التحريف ونماذج التشكيل الثلاثية الأبعاد. ومع ذلك ، فإن هذه الطرق تفرض قيودًا على طبيعة الصورة المتحركة وتنوعها.

نقدم GAIA (الذكاء الاصطناعي الجيل من أجل الصور المتحركة) ، وهي نظام مبتكر يهدف إلى القضاء على الحاجة إلى الاحتمالات المسبقة في الفئة أثناء عملية إنشاء الصورة المتحركة.

يعمل GAIA من خلال مراعاة ملاحظة: بينما يؤثر الحديث على حركة الصورة المتحركة ، فإن مظهر الصورة والخلفية يظلان ثابتين طوال مدة الفيديو. لقد قمنا بتلخيص هذه العملية في مرحلتين رئيسيتين:

تحليل كل إطار إلى تمثيلات منفصلة للحركة والمظهر.
توليد سلاسل حركية استنادًا إلى الخطاب وصورة البورتريه المرجعية.

لتحسين GAIA ، قمنا بتدريب النموذج على مجموعة بيانات واسعة النطاق وعالية الجودة للصور المتحركة المتحدثة في مقاييس متنوعة (تصل إلى 2 مليار معلمة). نتائجنا؟ تفوق GAIA على النماذج السابقة فيما يتعلق بـ:

الطبيعية
التنوع
جودة مزامنة الشفاه، و
جودة الصورة المرئية.

بالإضافة إلى ذلك ، يعد GAIA قابلاً للتوسع (النماذج الأكبر تؤدي إلى نتائج أفضل) ومتعدد الاستخدامات ، حيث يدعم تطبيقات توليد الصور المتحركة التحكمية وتوليد الصور المتحركة المعطاة نصوح.

تتساءل كيف يعمل GAIA؟ تحقق من الرسم البياني هنا:

Official Website

Speech-driven Talking Avatar Generation-1

Speech-driven Talking Avatar Generation-2

Speech-driven Talking Avatar Generation-3

Video-driven Talking Avatar Generation-1

Video-driven Talking Avatar Generation-2

Pose-controllable Talking Avatar Generation

Fully Controllable Talking Avatar Generation

Textual Instruction: Sad

Textual Instruction: Open your mouth

Textual Instruction: Surprise

Official Website