گزارش خبری پیشرفته
ژانویه 24، 2023

VToonify: یک مدل هوش مصنوعی در زمان واقعی برای تولید ویدیوهای پرتره هنری

به طور خلاصه

یک فریم ورک انقلابی VToonify توسط توسعه دهندگان توسعه داده شد تا انتقال‌های ویدئویی پرتره کنترل‌شده و با وضوح بالا را ارائه دهد.

برای تولید پرتره‌های هنری خیره‌کننده، این چارچوب از لایه‌های وضوح متوسط ​​و بالا StyleGAN استفاده می‌کند.

این اجازه می دهد تا گسترش موجود مبتنی بر StyleGAN مدل های تونیکاسیون تصویر به ویدیو

محققان دانشگاه فناوری نانیانگ این موضوع را انجام داده اند یک چارچوب جدید VToonify را معرفی کرد برای ایجاد انتقال سبک ویدئویی پرتره با وضوح بالا قابل کنترل. VToonify از لایه‌های با وضوح متوسط ​​و بالا StyleGAN استفاده می‌کند تا پرتره‌های هنری با کیفیت بالا را بر اساس ویژگی‌های محتوای چند مقیاسی استخراج‌شده توسط رمزگذار برای حفظ بهتر جزئیات قاب ارائه کند. نتایج تجربی نشان می‌دهد که چارچوب ما می‌تواند ویدیوهایی با کیفیت بالا و حالت‌های چهره دلخواه را بدون نیاز به هم‌ترازی چهره یا محدودیت‌های اندازه فریم تولید کند.

در نتیجه، یک معماری کاملاً کانولوشنال که چهره‌های غیرهمتراز را در ویدیوهایی با اندازه‌های مختلف می‌پذیرد، چهره‌های کاملی را با حرکات ارگانیک تولید می‌کند. چارچوب VToonify ویژگی های جذاب این مدل ها را برای کنترل سبک انعطاف پذیر بر روی رنگ و شدت به ارث برده است. این با مدل‌های تونی‌سازی تصویر مبتنی بر StyleGAN سازگار است تا آن‌ها را به تونیفیک ویدیویی گسترش دهد. این کار به ترتیب دو نمونه از VToonify را برای انتقال سبک ویدیوی پرتره مبتنی بر مجموعه و مبتنی بر نمونه معرفی می‌کند که بر اساس Toonify و DualStyleGAN ساخته شده‌اند.

Vtoonify: یک مدل هوش مصنوعی در زمان واقعی برای تولید ویدیوهای پرتره هنری

یافته‌های تجربی گسترده نشان می‌دهد که چارچوب پیشنهادی VToonify از رویکردهای رقیب در تولید فیلم‌های پرتره هنری با کنترل‌های سبک قابل تنظیم که کیفیت عالی و از لحاظ زمانی سازگار هستند، بهتر عمل می‌کند. بررسی GitHub برای جزئیات بیشتر.

مقاله مرتبط: OpenAI در حال کار بر روی ایجاد یک مدل هوش مصنوعی برای ویدئو است

به منظور ارائه یک انتقال سبک ویدیویی پرتره با وضوح بالا قابل کنترل، VToonify مزایای چارچوب ترجمه تصویر و چارچوب مبتنی بر StyleGAN را ترکیب می کند.

(الف) برای پشتیبانی از اندازه ورودی متغیر، یک سیستم ترجمه تصویر از شبکه های کاملاً کانولوشنال استفاده می کند. با این وجود، هنگام آموزش از ابتدا، ارائه سبک با وضوح بالا و کنترل شده چالش برانگیز است.

(ب) چارچوب مبتنی بر StyleGAN، که فقط از اندازه تصویر ثابت و از دست دادن جزئیات پشتیبانی می کند، از مدل StyleGAN از پیش آموزش دیده برای انتقال سبک با وضوح بالا و قابل کنترل استفاده می کند.

(C) به منظور ایجاد یک معماری رمزگذار-مولد کاملاً پیچیده شبیه به چارچوب ترجمه تصویر، سیستم ترکیبی ما StyleGAN را با حذف ویژگی ورودی با اندازه ثابت و لایه‌های با وضوح پایین گسترش می‌دهد.

به منظور حفظ جزئیات قاب، توسعه دهندگان یک رمزگذار را آموزش می دهند تا ویژگی های محتوای چند مقیاسی را از قاب ورودی به عنوان یک شرط محتوای اضافی استخراج کند. VToonify انعطاف پذیری کنترل سبک مدل StyleGAN را با قرار دادن آن در ژنراتور به ارث می برد تا هم داده ها و هم مدل آن را تقطیر کند.

Vtoonify: یک مدل هوش مصنوعی در زمان واقعی برای تولید ویدیوهای پرتره هنری
مقاله مرتبط: Lambda Labs یک میکسر تصویر هوش مصنوعی را معرفی کرد که می تواند حداکثر پنج تصویر را ترکیب کند

چارچوب VToonify ویژگی‌های جذاب برای کنترل سبک انعطاف‌پذیر را از مدل‌های تونیفیکیشن تصویر مبتنی بر StyleGAN به ارث برده است و با آن‌ها سازگار است تا آنها را گسترش دهد. تصویری تونی سازی VToonify ما با استفاده از مدل DualStyleGAN به عنوان پایه StyleGAN موارد زیر را ارائه می دهد:

  • انتقال سبک از ساختارهای مبتنی بر نمونه؛
  • تغییر درجه سبک؛
  • انتقال سبک رنگ بر اساس نمونه ها.
Vtoonify: یک مدل هوش مصنوعی در زمان واقعی برای تولید ویدیوهای پرتره هنری
برای تقطیر StyleGAN، توسعه‌دهندگان دو ستون اصلی Toonify و DualStyleGAN و همچنین پایه ترجمه تصویر به تصویر با وضوح بالا Pix2pixHD را مقایسه می‌کنند. VToonify-T و VToonify-D از ستون فقرات قابل مقایسه خود، Toonify و DualStyleGAN، از نظر سبک سازی کل ویدیو در حالی که همان کیفیت بالا و عناصر بصری را به عنوان ستون فقرات برای هر فریم جداگانه حفظ می کنند، بهتر عمل می کنند. به عنوان مثال، VToonify-T از Toonify پیروی می کند تا جلوه ای قوی مانند موهای بنفش در سبک Arcane ایجاد کند. از طرف دیگر، VToonify-D عملکرد بهتری در حفظ ویژگی های صورت دارد. Pix2pixHD در مقایسه با VTooniify-D دارای سوسو و مصنوعات است.

درباره هوش مصنوعی بیشتر بخوانید:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

روز صدور حکم فرا می رسد: با بررسی دادگاه ایالات متحده به درخواست وزارت دادگستری، سرنوشت CZ در تعادل است

چانگ پنگ ژائو امروز در دادگاهی در سیاتل آمریکا محکوم خواهد شد.

بیشتر بدانید

بنیانگذاران کیف پول سامورایی متهم به تسهیل 2 میلیارد دلار در معاملات Darknet شدند

دلهره از بنیانگذاران کیف پول سامورای نشان دهنده یک شکست قابل توجه برای صنعت است که تاکیدی بر ادامه دار بودن ...

بیشتر بدانید
به انجمن فناوری نوآورانه ما بپیوندید
ادامه مطلب
ادامه مطلب
Pantera Capital در بلاک چین TON سرمایه گذاری می کند و به پتانسیل تلگرام برای گسترش دسترسی به رمزنگاری اعتماد دارد
کسب و کار گزارش خبری پیشرفته
Pantera Capital در بلاک چین TON سرمایه گذاری می کند و به پتانسیل تلگرام برای گسترش دسترسی به رمزنگاری اعتماد دارد
ممکن است 2، 2024
میتوز 7 میلیون دلار از Amber Group و Foresight Ventures برای پیشبرد پروتکل نقدینگی مدولار خود جمع آوری می کند.
کسب و کار گزارش خبری پیشرفته
میتوز 7 میلیون دلار از Amber Group و Foresight Ventures برای پیشبرد پروتکل نقدینگی مدولار خود جمع آوری می کند.
ممکن است 2، 2024
Galxe با Jambo همکاری می کند تا دسترسی جهانی را گسترش دهد Web3
کسب و کار گزارش خبری پیشرفته
Galxe با Jambo همکاری می کند تا دسترسی جهانی را گسترش دهد Web3
ممکن است 2، 2024
Google's Med-Gemini آماده است تا شروعی به کار کند GPT-4 با عملکرد برتر آن در مراقبت های بهداشتی
AI Wiki رسانه نرم افزار پیشرفته
Google's Med-Gemini آماده است تا شروعی به کار کند GPT-4 با عملکرد برتر آن در مراقبت های بهداشتی
ممکن است 2، 2024
CRYPTOMERIA LABS PTE. محدود