VToonify: نموذج AI في الوقت الفعلي لإنشاء مقاطع فيديو فنية للصور الشخصية
في سطور
تم تطوير إطار عمل VToonify الثوري من قبل المطورين لتوفير عمليات نقل نمط فيديو عمودي محكومة وعالية الدقة.
لإنتاج صور فنية مذهلة ، يستخدم إطار العمل طبقات StyleGAN متوسطة وعالية الدقة.
يسمح بتمديد القائمة المستندة إلى StyleGAN نماذج toonification الصورة للفيديو.
باحثون من جامعة نانيانغ التكنولوجية لديهم قدم إطار عمل VToonify جديد لإنشاء نقل نمط فيديو عمودي عالي الدقة يمكن التحكم فيه. تستفيد VToonify من الطبقات المتوسطة والعالية الدقة من StyleGAN لتقديم صور فنية عالية الجودة استنادًا إلى ميزات المحتوى متعدد المقاييس المستخرجة بواسطة برنامج تشفير للحفاظ على تفاصيل الإطار بشكل أفضل. تظهر النتائج التجريبية أن إطار العمل الخاص بنا يمكنه إنشاء مقاطع فيديو بجودة عالية باستمرار وتعبيرات الوجه المرغوبة دون الحاجة إلى محاذاة الوجه أو قيود حجم الإطار.
ونتيجة لذلك ، فإن البنية التلافيفية التي تقبل الوجوه غير المحاذية في مقاطع الفيديو ذات الأحجام المختلفة تنتج وجوهًا كاملة بحركات عضوية. يرث إطار عمل VToonify الميزات الجذابة لهذه النماذج للتحكم المرن في الأسلوب في اللون والكثافة. وهو متوافق مع نماذج تحويل الصور القائمة على StyleGAN لتوسيعها لتشمل تحويل الصوت إلى الفيديو. يقدم هذا العمل نسختين من VToonify لنقل نمط الفيديو الرأسي المستند إلى التجميع والقائم على النموذج ، على التوالي ، بناءً على Toonify و DualStyleGAN.
تُظهر النتائج التجريبية الواسعة أن إطار عمل VToonify المقترح يتفوق على الأساليب المتنافسة في إنتاج أفلام بورتريه فنية ذات عناصر تحكم نمطية قابلة للتعديل ذات جودة ممتازة ومتسقة مؤقتًا. الشيك GitHub جيثب: لمزيد من التفاصيل.
مقالة ذات صلة: OpenAI تعمل على إنشاء نموذج ذكاء اصطناعي للفيديو |
من أجل توفير نقل نمط فيديو عمودي عالي الدقة يمكن التحكم فيه ، يجمع VToonify بين مزايا إطار ترجمة الصور والإطار المستند إلى StyleGAN.
(أ) لدعم حجم الإدخال المتغير ، يستخدم نظام ترجمة الصور شبكات تلافيفية بالكامل. من الصعب نقل أسلوب عالي الدقة والتحكم ، مع ذلك ، عند التدريس من الصفر.
(ب) إطار العمل المستند إلى StyleGAN ، والذي يدعم فقط حجم الصورة الثابت وفقدان التفاصيل ، يستخدم نموذج StyleGAN المدرب مسبقًا لنقل النمط عالي الدقة والقابل للتحكم.
(ج) من أجل إنشاء معمارية مولد تشفير تلافيفي تمامًا تشبه بنية إطار ترجمة الصور ، يقوم نظامنا الهجين بتوسيع StyleGAN عن طريق حذف ميزة الإدخال ذات الحجم الثابت والطبقات منخفضة الدقة.
من أجل الحفاظ على تفاصيل الإطار ، يقوم المطورون بتدريب برنامج تشفير لاستخراج ميزات محتوى متعددة المقاييس من إطار الإدخال كشرط محتوى إضافي. ترث VToonify مرونة التحكم في أسلوب طراز StyleGAN من خلال وضعها في المولد لاستخلاص بياناتها ونموذجها.
مقالة ذات صلة: أعلنت Lambda Labs عن أداة خلط صور تعمل بالذكاء الاصطناعي يمكنها دمج ما يصل إلى خمس صور |
يرث إطار عمل VToonify الخصائص الجذابة للتحكم المرن في النمط من نماذج توحيد الصور الحالية المستندة إلى StyleGAN وهو متوافق معها لتوسيعها لتشمل الفيديو التنغيم. يقدم VToonify الخاص بنا ما يلي باستخدام نموذج DualStyleGAN كأساس لـ StyleGAN:
- نقل الأسلوب من الهياكل القائمة على النموذج ؛
- تعديل درجة الاسلوب.
- نقل نمط اللون على أساس النماذج.
اقرأ المزيد عن الذكاء الاصطناعي:
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.
المزيد من المقالاتدامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.