گزارش خبری
مارس 20، 2023

مدل جدید تبدیل متن به تصویر GigaGAN می تواند تصاویر 4K را در 3.66 ثانیه تولید کند.

به طور خلاصه

محققان مدل جدیدی از متن به تصویر به نام GigaGAN ایجاد کرده اند که می تواند تصاویر 4K را در 3.66 ثانیه تولید کند.

این بر اساس چارچوب GAN (شبکه متخاصم مولد) است که نوعی از آن است شبکه های عصبی که می تواند یاد بگیرد که داده هایی مشابه یک مجموعه داده آموزشی تولید کند. GigaGAN قادر به تولید تصاویر 512 پیکسلی در 0.13 ثانیه، 10 برابر سریعتر از مدل پیشرفته قبلی است و دارای فضای پنهان جدا، پیوسته و قابل کنترل است.

همچنین می‌توان از آن برای آموزش نمونه‌بردار کارآمد و با کیفیت بالاتر استفاده کرد.

محققان مدل جدیدی از متن به تصویر را به نام GigaGAN که می تواند تولید کند تصاویر 4K در 3.66 ثانیه این یک پیشرفت بزرگ نسبت به مدل‌های موجود متن به تصویر است که می‌تواند چند دقیقه یا حتی ساعت‌ها طول بکشد تا یک تصویر واحد ایجاد شود.

مدل جدید تبدیل متن به تصویر GigaGAN می تواند تصاویر 4K را با سرعت 3.66 ثانیه تولید کند

GigaGAN بر اساس چارچوب GAN (شبکه متخاصم مولد) است، که نوعی شبکه عصبی است که می تواند یاد بگیرد که داده هایی شبیه به مجموعه داده های آموزشی تولید کند. GAN ها برای تولید تصاویر واقعی از چهره ها، مناظر و حتی تصاویر نمای خیابان استفاده شده اند.

ادامه مطلب: 5+ پیش‌بینی‌شده‌ترین مدل هوش مصنوعی متن به تصویر در سال 2023

مدل جدید بر روی مجموعه داده‌ای از 1 میلیارد تصویر آموزش داده شده است، که مرتبه‌ای بزرگتر از مجموعه داده‌های مورد استفاده برای آموزش مدل‌های متن به تصویر قبلی است. در نتیجه، GigaGAN قادر است تصاویری با کیفیت 512 پیکسل در 0.13 ثانیه تولید کند که بیش از 10 برابر سریعتر از پیشرفته ترین مدل قبلی متن به تصویر است.

علاوه بر این، GigaGAN دارای یک فضای نهفته جدا، پیوسته و قابل کنترل است. این بدان معنی است که GigaGAN می تواند تصاویری تولید کند که دارای سبک های مختلف هستند و می توان تصاویر تولید شده را تا حدی کنترل کرد. به عنوان مثال، GigaGAN می‌تواند تصاویری تولید کند که طرح‌بندی ورودی متن را حفظ کند، که برای برنامه‌ها مهم است، به عنوان مثال، هنگام تولید تصاویر طرح‌بندی محصول از توضیحات متن.

GigaGAN همچنین می تواند برای آموزش نمونه برداری کارآمد و با کیفیت بالاتر استفاده شود. این را می توان برای تصاویر واقعی یا برای خروجی های دیگر اعمال کرد مدل های متن به تصویر.

یک شاخه کدگذاری متن، شبکه نگاشت سبک، شبکه سنتز چند مقیاسی، و توجه پایدار و انتخاب هسته تطبیقی، همه بخشی از مولد GigaGAN هستند. توسعه دهندگان شاخه رمزگذاری متن را با استخراج جاسازی های متنی با یک مدل CLIP از پیش آموزش دیده و لایه های توجه آموخته شده آغاز می کنند. StyleGAN، جاسازی به شبکه نگاشت سبک M ارسال می شود که بردار سبک w را ایجاد می کند. برای تولید یک هرم تصویر، شبکه سنتز اکنون از کد سبک به عنوان مدولاسیون و از جاسازی متن به عنوان توجه استفاده می کند. علاوه بر این، توسعه دهندگان انتخاب هسته تطبیقی ​​نمونه را برای انتخاب هسته های کانولوشن به صورت تطبیقی ​​بر اساس شرطی سازی متن ورودی معرفی می کنند.

تفکیک کننده مانند مولد دارای دو شاخه برای پردازش تصویر و شرطی سازی متن است. شاخه متن، مانند مولد، متن را پردازش می کند. به شاخه تصویر یک هرم تصویر داده می شود و وظیفه دارد برای هر مقیاس تصویر پیش بینی های مستقل انجام دهد. علاوه بر این، پیش‌بینی‌ها در تمام مقیاس‌های لایه پایین نمونه‌برداری بعدی انجام می‌شود. زیان های اضافی نیز برای تشویق همگرایی موثر استفاده می شود.

همانطور که در شبکه درون یابی نشان داده شده است، GigaGAN اجازه می دهد تا بین اعلان ها درون یابی صاف را انجام دهد. چهار گوشه با استفاده از همان z نهفته اما اعلان‌های متنی متفاوت ایجاد می‌شوند.

از آنجایی که GigaGAN یک فضای پنهان از هم گسیخته را حفظ می کند، توسعه دهندگان می توانند سبک درشت یک نمونه را با سبک ظریف نمونه دیگر ترکیب کنند. GigaGAN همچنین می تواند استایل را مستقیماً با پیام های متنی کنترل کند.

مقالات مرتبط بیشتر را بخوانید:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

روز صدور حکم فرا می رسد: با بررسی دادگاه ایالات متحده به درخواست وزارت دادگستری، سرنوشت CZ در تعادل است

چانگ پنگ ژائو امروز در دادگاهی در سیاتل آمریکا محکوم خواهد شد.

بیشتر بدانید

بنیانگذاران کیف پول سامورایی متهم به تسهیل 2 میلیارد دلار در معاملات Darknet شدند

دلهره از بنیانگذاران کیف پول سامورای نشان دهنده یک شکست قابل توجه برای صنعت است که تاکیدی بر ادامه دار بودن ...

بیشتر بدانید
به انجمن فناوری نوآورانه ما بپیوندید
ادامه مطلب
ادامه مطلب
Pantera Capital در بلاک چین TON سرمایه گذاری می کند و به پتانسیل تلگرام برای گسترش دسترسی به رمزنگاری اعتماد دارد
کسب و کار گزارش خبری پیشرفته
Pantera Capital در بلاک چین TON سرمایه گذاری می کند و به پتانسیل تلگرام برای گسترش دسترسی به رمزنگاری اعتماد دارد
ممکن است 2، 2024
میتوز 7 میلیون دلار از Amber Group و Foresight Ventures برای پیشبرد پروتکل نقدینگی مدولار خود جمع آوری می کند.
کسب و کار گزارش خبری پیشرفته
میتوز 7 میلیون دلار از Amber Group و Foresight Ventures برای پیشبرد پروتکل نقدینگی مدولار خود جمع آوری می کند.
ممکن است 2، 2024
Galxe با Jambo همکاری می کند تا دسترسی جهانی را گسترش دهد Web3
کسب و کار گزارش خبری پیشرفته
Galxe با Jambo همکاری می کند تا دسترسی جهانی را گسترش دهد Web3
ممکن است 2، 2024
وو جیژوانگ، عضو شورای قانونگذاری هنگ کنگ، علیه صرافی کریپتو JPEX شکایت مدنی صادر کرد.
کسب و کار گزارش خبری پیشرفته
وو جیژوانگ، عضو شورای قانونگذاری هنگ کنگ، علیه صرافی کریپتو JPEX شکایت مدنی صادر کرد.
ممکن است 2، 2024
CRYPTOMERIA LABS PTE. محدود