VToonify: یک مدل هوش مصنوعی در زمان واقعی برای تولید ویدیوهای پرتره هنری
به طور خلاصه
یک فریم ورک انقلابی VToonify توسط توسعه دهندگان توسعه داده شد تا انتقالهای ویدئویی پرتره کنترلشده و با وضوح بالا را ارائه دهد.
برای تولید پرترههای هنری خیرهکننده، این چارچوب از لایههای وضوح متوسط و بالا StyleGAN استفاده میکند.
این اجازه می دهد تا گسترش موجود مبتنی بر StyleGAN مدل های تونیکاسیون تصویر به ویدیو
محققان دانشگاه فناوری نانیانگ این موضوع را انجام داده اند یک چارچوب جدید VToonify را معرفی کرد برای ایجاد انتقال سبک ویدئویی پرتره با وضوح بالا قابل کنترل. VToonify از لایههای با وضوح متوسط و بالا StyleGAN استفاده میکند تا پرترههای هنری با کیفیت بالا را بر اساس ویژگیهای محتوای چند مقیاسی استخراجشده توسط رمزگذار برای حفظ بهتر جزئیات قاب ارائه کند. نتایج تجربی نشان میدهد که چارچوب ما میتواند ویدیوهایی با کیفیت بالا و حالتهای چهره دلخواه را بدون نیاز به همترازی چهره یا محدودیتهای اندازه فریم تولید کند.
در نتیجه، یک معماری کاملاً کانولوشنال که چهرههای غیرهمتراز را در ویدیوهایی با اندازههای مختلف میپذیرد، چهرههای کاملی را با حرکات ارگانیک تولید میکند. چارچوب VToonify ویژگی های جذاب این مدل ها را برای کنترل سبک انعطاف پذیر بر روی رنگ و شدت به ارث برده است. این با مدلهای تونیسازی تصویر مبتنی بر StyleGAN سازگار است تا آنها را به تونیفیک ویدیویی گسترش دهد. این کار به ترتیب دو نمونه از VToonify را برای انتقال سبک ویدیوی پرتره مبتنی بر مجموعه و مبتنی بر نمونه معرفی میکند که بر اساس Toonify و DualStyleGAN ساخته شدهاند.
یافتههای تجربی گسترده نشان میدهد که چارچوب پیشنهادی VToonify از رویکردهای رقیب در تولید فیلمهای پرتره هنری با کنترلهای سبک قابل تنظیم که کیفیت عالی و از لحاظ زمانی سازگار هستند، بهتر عمل میکند. بررسی GitHub برای جزئیات بیشتر.
به منظور ارائه یک انتقال سبک ویدیویی پرتره با وضوح بالا قابل کنترل، VToonify مزایای چارچوب ترجمه تصویر و چارچوب مبتنی بر StyleGAN را ترکیب می کند.
(الف) برای پشتیبانی از اندازه ورودی متغیر، یک سیستم ترجمه تصویر از شبکه های کاملاً کانولوشنال استفاده می کند. با این وجود، هنگام آموزش از ابتدا، ارائه سبک با وضوح بالا و کنترل شده چالش برانگیز است.
(ب) چارچوب مبتنی بر StyleGAN، که فقط از اندازه تصویر ثابت و از دست دادن جزئیات پشتیبانی می کند، از مدل StyleGAN از پیش آموزش دیده برای انتقال سبک با وضوح بالا و قابل کنترل استفاده می کند.
(C) به منظور ایجاد یک معماری رمزگذار-مولد کاملاً پیچیده شبیه به چارچوب ترجمه تصویر، سیستم ترکیبی ما StyleGAN را با حذف ویژگی ورودی با اندازه ثابت و لایههای با وضوح پایین گسترش میدهد.
به منظور حفظ جزئیات قاب، توسعه دهندگان یک رمزگذار را آموزش می دهند تا ویژگی های محتوای چند مقیاسی را از قاب ورودی به عنوان یک شرط محتوای اضافی استخراج کند. VToonify انعطاف پذیری کنترل سبک مدل StyleGAN را با قرار دادن آن در ژنراتور به ارث می برد تا هم داده ها و هم مدل آن را تقطیر کند.
مقاله مرتبط: Lambda Labs یک میکسر تصویر هوش مصنوعی را معرفی کرد که می تواند حداکثر پنج تصویر را ترکیب کند |
چارچوب VToonify ویژگیهای جذاب برای کنترل سبک انعطافپذیر را از مدلهای تونیفیکیشن تصویر مبتنی بر StyleGAN به ارث برده است و با آنها سازگار است تا آنها را گسترش دهد. تصویری تونی سازی VToonify ما با استفاده از مدل DualStyleGAN به عنوان پایه StyleGAN موارد زیر را ارائه می دهد:
- انتقال سبک از ساختارهای مبتنی بر نمونه؛
- تغییر درجه سبک؛
- انتقال سبک رنگ بر اساس نمونه ها.
درباره هوش مصنوعی بیشتر بخوانید:
سلب مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشترDamir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.