مدل Würstchen V2 برنده شد Stable Diffusion XL با سرعت چشمگیر برای تولید تصاویر با وضوح بالا
یک توییت اخیر نویسنده مقاله ای با عنوان "Würstchen" (در آلمانی "سوسیس") توجه علاقه مندان و متخصصان را به خود جلب کرده است. این توییت نتایج جذاب تولید تصاویر با استفاده از مدل جدید Würstchen V2 را به اشتراک گذاشت.
Würstchen سریع و کارآمد است و تصاویر را سریعتر از مدل هایی مانند تولید می کند Stable Diffusion XL در حالی که از حافظه کمتری استفاده می کند. همچنین هزینه های آموزشی را کاهش داده است، به طوری که Würstchen v1 تنها به 9,000 ساعت GPU با وضوح 512×512 نیاز دارد، در حالی که 150,000 ساعت GPU صرف شده است. Stable Diffusion 1.4. این کاهش ۱۶ برابری هزینه نه تنها به نفع محققانی است که آزمایشهای جدید انجام میدهند، بلکه راه را برای سازمانهای بیشتری برای آموزش چنین مدلهایی باز میکند. Würstchen v16 از 2 ساعت GPU استفاده میکرد که 24,602 برابر ارزانتر از SD6 است که فقط در 1.4×512 آموزش داده شده بود.
Würstchen V2 یک مدل انتشار که در یک فضای نهفته بسیار فشرده از تصاویر کار می کند و هزینه های محاسباتی برای آموزش و استنتاج را با مرتبه های بزرگی کاهش می دهد. از یک طراحی جدید استفاده می کند که به فشرده سازی فضایی 42 برابری دست می یابد، شاهکاری که قبلاً دیده نشده بود. Würstchen از فشرده سازی دو مرحله ای، مرحله A و مرحله B استفاده می کند که تصاویر فشرده شده را به فضای پیکسل رمزگشایی می کند. مدل سوم، مرحله C، در فضای نهفته بسیار فشرده آموخته شده است، که نیاز به کسری از محاسبات مورد استفاده برای مدلهای با عملکرد برتر فعلی دارد، در حالی که امکان استنتاج ارزانتر و سریعتر را فراهم میکند.
Würstchen V2 شامل دو مرحله انتشار است:
- مرحله A: این مرحله شامل انتشار مشروط متن است و دارای 1 میلیارد پارامتر است. شتاب در اینجا از طریق تکنیک های فشرده سازی فوق العاده بالا به دست می آید. قابل ذکر است، به جای اندازه کد پنهان 128x128x4، همانطور که در SDXL دیده می شود، Würstchen V2 در ابتدا با وضوح 24x24x16 کار می کند. این به معنای پیکسل کمتر اما کانال های بیشتر است و در نتیجه سرعت قابل توجهی افزایش می یابد.
- مرحله B: این مدل دیفیوژن مجهز به 600 میلیون پارامتر است که وظیفه کاهش فشرده سازی تصویر از 24×24 به وضوح 128×128 را بر عهده دارد.
تکمیل فرآیند یک رمزگشا با 20 میلیون پارامتر است که کد پنهان را به یک تصویر رندر شده تبدیل می کند.
مزیت عملی که بلافاصله برجسته می شود، سرعت قابل توجه Würstchen V2 است. با سرعتی 2 تا 2.5 برابر سریعتر از SDXL کار می کند که یک پیشرفت قابل توجه در زمینه تولید تصویر با هوش مصنوعی.
مانند هر نوآوری تکنولوژیکی، ممکن است معاوضه هایی وجود داشته باشد. از نظر کیفیت تصویر، برخی از کارشناسان افت جزئی را پیشنهاد می کنند، اگرچه هنوز منتظر یک مقایسه جامع و صادقانه برای ارائه شواهد ملموس هستیم.
نمونه های تولید شده از متن به تصویر در زیر آمده است:
ادامه مطالب مرتبط را بخوانید:
سلب مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشترDamir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.