شرح VidToMe - فقد يكون هو Gen-1 مصدرًا مفتوحًا كنت تنتظره! معبأة بخيارات لتعديل أوامر النص في الفيديو، والنماذج المخصصة، وتوجيه ControlNet، يوفر VidToMe تماسكًا زمنيًا استثنائيًا. مثال واحد فقط على الفن بالبكسل وستكون منجذبًا إليه!
قد يكونتطبيق نماذج الانتشار في إنتاج صور عالية الجودة مبتكرًا، ولكن تطبيقات إنتاج الفيديو الخاصة بها واجهت عقبات بسبب التعقيدات المتعلقة بالحركة الزمنية. هذا هو المكان الذي يدخل فيه تحرير الفيديو بدون أوامر، حيث يتم تطبيق نماذج انتشار الصور المدربة مسبقًا على إعادة تنسيق الفيديوهات الأصلية. ومع ذلك، القضايا مثل الحفاظ على التسلسل الزمني واستخدام الذاكرة الفعال لا تزال قائمة.
لقد اتخذنا زاوية جديدة لحل هذه المشاكل. نحسن التسلسل الزمني في الفيديوهات المُنشأة عن طريق تداخل رموز الانتباه الذاتي عبر الإطارات. من خلال محاذاة وضغط الرموز المتكررة زمنيًا، نعزز التتابع الزمني ونقلل استخدام الذاكرة. عملية الدمج الفريدة لدينا تُرتب الرموز بناءً على العلاقة الزمنية بين إطارات الفيديو، مما يضمن محتوى فيديو متسق بطبيعته.
يتعامل VidToMe مع تجهيز الفيديو بفاعلية. نقسم الفيديو إلى قطع صغيرة ونطبق عملية دمج محلية داخل القطعة وعملية دمج عالمية بين القطع. هذا النهج يضمن استمرارية قصيرة وطويلة الأجل واتساقًا لمحتوى الفيديو. عبر ربط الفجوة بين تحرير الصور والفيديو، تتجاوز تقنية تحرير الفيديو الخاصة بنا المعايير الصناعية الحالية في الحفاظ على التسلسل الزمني.
Build web-apps using plain english
VidToMe: Video Token Merging for Zero-Shot Video Editing