گزارش خبری پیشرفته
سپتامبر 19، 2023

مدل Würstchen V2 برنده شد Stable Diffusion XL با سرعت چشمگیر برای تولید تصاویر با وضوح بالا

یک توییت اخیر نویسنده مقاله ای با عنوان "Würstchen" (در آلمانی "سوسیس") توجه علاقه مندان و متخصصان را به خود جلب کرده است. این توییت نتایج جذاب تولید تصاویر با استفاده از مدل جدید Würstchen V2 را به اشتراک گذاشت.

مدل Würstchen V2 برنده شد Stable Diffusion XL با سرعت چشمگیر برای تولید تصاویر با وضوح بالا
مربوط: Midjourney 5.2 و Stable Diffusion به روز رسانی SDXL 0.9 برای تولید متن به تصویر خلاقانه

Würstchen سریع و کارآمد است و تصاویر را سریعتر از مدل هایی مانند تولید می کند Stable Diffusion XL در حالی که از حافظه کمتری استفاده می کند. همچنین هزینه های آموزشی را کاهش داده است، به طوری که Würstchen v1 تنها به 9,000 ساعت GPU با وضوح 512×512 نیاز دارد، در حالی که 150,000 ساعت GPU صرف شده است. Stable Diffusion 1.4. این کاهش ۱۶ برابری هزینه نه تنها به نفع محققانی است که آزمایش‌های جدید انجام می‌دهند، بلکه راه را برای سازمان‌های بیشتری برای آموزش چنین مدل‌هایی باز می‌کند. Würstchen v16 از 2 ساعت GPU استفاده می‌کرد که 24,602 برابر ارزان‌تر از SD6 است که فقط در 1.4×512 آموزش داده شده بود.

یکی از ویژگی های برجسته ای که بلافاصله چشم جامعه هوش مصنوعی را به خود جلب کرد، سرعت چشمگیر Würstchen V2 است. به گفته نویسنده، تولید چهار تصویر 1024×2048 با استفاده از این مدل تنها 7 ثانیه طول می کشد. برای درک این موضوع، مدل SDXL برای دستیابی به همان کار به 40 ثانیه نسبتاً کند نیاز دارد.

Würstchen V1 که قبلا معرفی شده بود، اساس خود را با SDXL به عنوان یک پنهان به اشتراک می گذارد مدل انتشار اما معماری سریعتر Unet را در خود جای داده است. همانطور که جامعه مشتاقانه منتظر جزئیات بیشتر در مورد معماری Würstchen V2 است، سرعت افزایش یافته به تنهایی آن را به عنوان یک پیشرفت قابل توجه نشان می دهد.

Würstchen V2 یک مدل انتشار که در یک فضای نهفته بسیار فشرده از تصاویر کار می کند و هزینه های محاسباتی برای آموزش و استنتاج را با مرتبه های بزرگی کاهش می دهد. از یک طراحی جدید استفاده می کند که به فشرده سازی فضایی 42 برابری دست می یابد، شاهکاری که قبلاً دیده نشده بود. Würstchen از فشرده سازی دو مرحله ای، مرحله A و مرحله B استفاده می کند که تصاویر فشرده شده را به فضای پیکسل رمزگشایی می کند. مدل سوم، مرحله C، در فضای نهفته بسیار فشرده آموخته شده است، که نیاز به کسری از محاسبات مورد استفاده برای مدل‌های با عملکرد برتر فعلی دارد، در حالی که امکان استنتاج ارزان‌تر و سریع‌تر را فراهم می‌کند.

Würstchen V2 شامل دو مرحله انتشار است:

  • مرحله A: این مرحله شامل انتشار مشروط متن است و دارای 1 میلیارد پارامتر است. شتاب در اینجا از طریق تکنیک های فشرده سازی فوق العاده بالا به دست می آید. قابل ذکر است، به جای اندازه کد پنهان 128x128x4، همانطور که در SDXL دیده می شود، Würstchen V2 در ابتدا با وضوح 24x24x16 کار می کند. این به معنای پیکسل کمتر اما کانال های بیشتر است و در نتیجه سرعت قابل توجهی افزایش می یابد.
  • مرحله B: این مدل دیفیوژن مجهز به 600 میلیون پارامتر است که وظیفه کاهش فشرده سازی تصویر از 24×24 به وضوح 128×128 را بر عهده دارد.

تکمیل فرآیند یک رمزگشا با 20 میلیون پارامتر است که کد پنهان را به یک تصویر رندر شده تبدیل می کند.

مزیت عملی که بلافاصله برجسته می شود، سرعت قابل توجه Würstchen V2 است. با سرعتی 2 تا 2.5 برابر سریعتر از SDXL کار می کند که یک پیشرفت قابل توجه در زمینه تولید تصویر با هوش مصنوعی.

مانند هر نوآوری تکنولوژیکی، ممکن است معاوضه هایی وجود داشته باشد. از نظر کیفیت تصویر، برخی از کارشناسان افت جزئی را پیشنهاد می کنند، اگرچه هنوز منتظر یک مقایسه جامع و صادقانه برای ارائه شواهد ملموس هستیم.

نمونه های تولید شده از متن به تصویر در زیر آمده است:

ادامه مطالب مرتبط را بخوانید:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

در میان نوسانات، اشتهای سازمانی به سمت ETF های بیت کوین رشد می کند

افشاگری از طریق پرونده های 13F نشان می دهد که سرمایه گذاران نهادی قابل توجهی در ETF های بیت کوین مشغول هستند و بر پذیرش فزاینده ...

بیشتر بدانید

روز صدور حکم فرا می رسد: با بررسی دادگاه ایالات متحده به درخواست وزارت دادگستری، سرنوشت CZ در تعادل است

چانگ پنگ ژائو امروز در دادگاهی در سیاتل آمریکا محکوم خواهد شد.

بیشتر بدانید
به انجمن فناوری نوآورانه ما بپیوندید
ادامه مطلب
ادامه مطلب
Crypto Exchange OKX Notcoin را فهرست می کند، قرار است معاملات نقطه ای را با جفت NOT-USDT در 16 می معرفی کند.
بازارها گزارش خبری پیشرفته
Crypto Exchange OKX Notcoin را فهرست می کند، قرار است معاملات نقطه ای را با جفت NOT-USDT در 16 می معرفی کند.  
ممکن است 10، 2024
Blast سومین رویداد توزیع طلا را راه اندازی کرد و 15 میلیون امتیاز به DApps اختصاص داد
بازارها گزارش خبری پیشرفته
Blast سومین رویداد توزیع طلا را راه اندازی کرد و 15 میلیون امتیاز به DApps اختصاص داد
ممکن است 10، 2024
Espresso Systems با Polygon Labs برای توسعه AggLayer برای افزایش قابلیت همکاری Rollup همکاری می کند.
کسب و کار گزارش خبری پیشرفته
Espresso Systems با Polygon Labs برای توسعه AggLayer برای افزایش قابلیت همکاری Rollup همکاری می کند.
ممکن است 9، 2024
پروتکل زیرساختی مبتنی بر ZKP ZKBase نقشه راه را رونمایی کرد، برنامه تست نت را در ماه مه راه اندازی کرد
گزارش خبری پیشرفته
پروتکل زیرساختی مبتنی بر ZKP ZKBase نقشه راه را رونمایی کرد، برنامه تست نت را در ماه مه راه اندازی کرد
ممکن است 9، 2024
CRYPTOMERIA LABS PTE. محدود