تقرير الأخبار تكنولوجيا
٣ فبراير ٢٠٢٤

VToonify: نموذج AI في الوقت الفعلي لإنشاء مقاطع فيديو فنية للصور الشخصية

في سطور

تم تطوير إطار عمل VToonify الثوري من قبل المطورين لتوفير عمليات نقل نمط فيديو عمودي محكومة وعالية الدقة.

لإنتاج صور فنية مذهلة ، يستخدم إطار العمل طبقات StyleGAN متوسطة وعالية الدقة.

يسمح بتمديد القائمة المستندة إلى StyleGAN نماذج toonification الصورة للفيديو.

باحثون من جامعة نانيانغ التكنولوجية لديهم قدم إطار عمل VToonify جديد لإنشاء نقل نمط فيديو عمودي عالي الدقة يمكن التحكم فيه. تستفيد VToonify من الطبقات المتوسطة والعالية الدقة من StyleGAN لتقديم صور فنية عالية الجودة استنادًا إلى ميزات المحتوى متعدد المقاييس المستخرجة بواسطة برنامج تشفير للحفاظ على تفاصيل الإطار بشكل أفضل. تظهر النتائج التجريبية أن إطار العمل الخاص بنا يمكنه إنشاء مقاطع فيديو بجودة عالية باستمرار وتعبيرات الوجه المرغوبة دون الحاجة إلى محاذاة الوجه أو قيود حجم الإطار.

ونتيجة لذلك ، فإن البنية التلافيفية التي تقبل الوجوه غير المحاذية في مقاطع الفيديو ذات الأحجام المختلفة تنتج وجوهًا كاملة بحركات عضوية. يرث إطار عمل VToonify الميزات الجذابة لهذه النماذج للتحكم المرن في الأسلوب في اللون والكثافة. وهو متوافق مع نماذج تحويل الصور القائمة على StyleGAN لتوسيعها لتشمل تحويل الصوت إلى الفيديو. يقدم هذا العمل نسختين من VToonify لنقل نمط الفيديو الرأسي المستند إلى التجميع والقائم على النموذج ، على التوالي ، بناءً على Toonify و DualStyleGAN.

Vtoonify: نموذج AI في الوقت الفعلي لإنشاء مقاطع فيديو فنية للصورة

تُظهر النتائج التجريبية الواسعة أن إطار عمل VToonify المقترح يتفوق على الأساليب المتنافسة في إنتاج أفلام بورتريه فنية ذات عناصر تحكم نمطية قابلة للتعديل ذات جودة ممتازة ومتسقة مؤقتًا. الشيك GitHub جيثب: لمزيد من التفاصيل.

مقالة ذات صلة: OpenAI تعمل على إنشاء نموذج ذكاء اصطناعي للفيديو

من أجل توفير نقل نمط فيديو عمودي عالي الدقة يمكن التحكم فيه ، يجمع VToonify بين مزايا إطار ترجمة الصور والإطار المستند إلى StyleGAN.

(أ) لدعم حجم الإدخال المتغير ، يستخدم نظام ترجمة الصور شبكات تلافيفية بالكامل. من الصعب نقل أسلوب عالي الدقة والتحكم ، مع ذلك ، عند التدريس من الصفر.

(ب) إطار العمل المستند إلى StyleGAN ، والذي يدعم فقط حجم الصورة الثابت وفقدان التفاصيل ، يستخدم نموذج StyleGAN المدرب مسبقًا لنقل النمط عالي الدقة والقابل للتحكم.

(ج) من أجل إنشاء معمارية مولد تشفير تلافيفي تمامًا تشبه بنية إطار ترجمة الصور ، يقوم نظامنا الهجين بتوسيع StyleGAN عن طريق حذف ميزة الإدخال ذات الحجم الثابت والطبقات منخفضة الدقة.

من أجل الحفاظ على تفاصيل الإطار ، يقوم المطورون بتدريب برنامج تشفير لاستخراج ميزات محتوى متعددة المقاييس من إطار الإدخال كشرط محتوى إضافي. ترث VToonify مرونة التحكم في أسلوب طراز StyleGAN من خلال وضعها في المولد لاستخلاص بياناتها ونموذجها.

Vtoonify: نموذج AI في الوقت الفعلي لإنشاء مقاطع فيديو فنية للصورة
مقالة ذات صلة: أعلنت Lambda Labs عن أداة خلط صور تعمل بالذكاء الاصطناعي يمكنها دمج ما يصل إلى خمس صور

يرث إطار عمل VToonify الخصائص الجذابة للتحكم المرن في النمط من نماذج توحيد الصور الحالية المستندة إلى StyleGAN وهو متوافق معها لتوسيعها لتشمل الفيديو التنغيم. يقدم VToonify الخاص بنا ما يلي باستخدام نموذج DualStyleGAN كأساس لـ StyleGAN:

  • نقل الأسلوب من الهياكل القائمة على النموذج ؛
  • تعديل درجة الاسلوب.
  • نقل نمط اللون على أساس النماذج.
Vtoonify: نموذج AI في الوقت الفعلي لإنشاء مقاطع فيديو فنية للصورة
بالنسبة لتقطير StyleGAN ، يقارن المطورون بين عمودين فقريين Toonify و DualStyleGAN ، بالإضافة إلى خط الأساس لترجمة الصور عالية الدقة Pix2pixHD. يتفوق أداء VToonify-T و VToonify-D على العمود الفقري القابل للمقارنة ، Toonify و DualStyleGAN ، من حيث تنسيق الفيديو بأكمله مع الحفاظ على نفس الجودة العالية والعناصر المرئية مثل العمود الفقري لكل إطار فردي. VToonify-T ، على سبيل المثال ، يتبع Toonify لفرض تأثير أسلوب قوي ، مثل الشعر البنفسجي بأسلوب Arcane. من ناحية أخرى ، يقوم VToonify-D بعمل أفضل في الحفاظ على ملامح الوجه. يحتوي Pix2pixHD على ومضات وتشوهات عند مقارنتها بـ VToonify-D.

اقرأ المزيد عن الذكاء الاصطناعي:

إخلاء المسئولية

تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.

نبذة عن الكاتب

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

المزيد من المقالات
دامير يالالوف
دامير يالالوف

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

Hot Stories
اشترك في صحيفتنا الإخبارية.
آخـر الأخبار

وصول يوم النطق بالحكم: مصير تشيكوسلوفاكيا معلق في الميزان بينما تنظر المحكمة الأمريكية في التماس وزارة العدل

ومن المقرر أن يواجه Changpeng Zhao الحكم في محكمة أمريكية في سياتل اليوم.

أعرف المزيد

مؤسسو Samourai Wallet متهمون بتسهيل صفقات بقيمة 2 مليار دولار في Darknet

يمثل إلقاء القبض على مؤسسي Samourai Wallet انتكاسة ملحوظة لهذه الصناعة، مما يؤكد استمرار ...

أعرف المزيد
انضم إلى مجتمعنا التقني المبتكر
تفاصيل أكثر
المزيد
تستثمر Pantera Capital في TON Blockchain، وتعرب عن ثقتها في قدرة Telegram على توسيع إمكانية الوصول إلى العملات المشفرة
باقة الأعمال تقرير الأخبار تكنولوجيا
تستثمر Pantera Capital في TON Blockchain، وتعرب عن ثقتها في قدرة Telegram على توسيع إمكانية الوصول إلى العملات المشفرة
2 مايو 2024
تجمع شركة Mitosis تمويلًا بقيمة 7 ملايين دولار من Amber Group وForesight Ventures لتطوير بروتوكول السيولة المعياري الخاص بها
باقة الأعمال تقرير الأخبار تكنولوجيا
تجمع شركة Mitosis تمويلًا بقيمة 7 ملايين دولار من Amber Group وForesight Ventures لتطوير بروتوكول السيولة المعياري الخاص بها
2 مايو 2024
تتعاون شركة Galxe مع Jambo لتوسيع إمكانية الوصول العالمية إلى Web3
باقة الأعمال تقرير الأخبار تكنولوجيا
تتعاون شركة Galxe مع Jambo لتوسيع إمكانية الوصول العالمية إلى Web3
2 مايو 2024
Google Med-Gemini يستعد لإعطاء السبق لـ GPT-4 مع أدائها المتفوق في مجال الرعاية الصحية
AI Wiki الأخبار تطبيقات الكمبيوتر تكنولوجيا
Google Med-Gemini يستعد لإعطاء السبق لـ GPT-4 مع أدائها المتفوق في مجال الرعاية الصحية
2 مايو 2024
CRYPTOMERIA LABS PTE. المحدودة.