مدل جدید تبدیل متن به تصویر GigaGAN می تواند تصاویر 4K را در 3.66 ثانیه تولید کند.
به طور خلاصه
محققان مدل جدیدی از متن به تصویر به نام GigaGAN ایجاد کرده اند که می تواند تصاویر 4K را در 3.66 ثانیه تولید کند.
این بر اساس چارچوب GAN (شبکه متخاصم مولد) است که نوعی از آن است شبکه های عصبی که می تواند یاد بگیرد که داده هایی مشابه یک مجموعه داده آموزشی تولید کند. GigaGAN قادر به تولید تصاویر 512 پیکسلی در 0.13 ثانیه، 10 برابر سریعتر از مدل پیشرفته قبلی است و دارای فضای پنهان جدا، پیوسته و قابل کنترل است.
همچنین میتوان از آن برای آموزش نمونهبردار کارآمد و با کیفیت بالاتر استفاده کرد.
محققان مدل جدیدی از متن به تصویر را به نام GigaGAN که می تواند تولید کند تصاویر 4K در 3.66 ثانیه این یک پیشرفت بزرگ نسبت به مدلهای موجود متن به تصویر است که میتواند چند دقیقه یا حتی ساعتها طول بکشد تا یک تصویر واحد ایجاد شود.
GigaGAN بر اساس چارچوب GAN (شبکه متخاصم مولد) است، که نوعی شبکه عصبی است که می تواند یاد بگیرد که داده هایی شبیه به مجموعه داده های آموزشی تولید کند. GAN ها برای تولید تصاویر واقعی از چهره ها، مناظر و حتی تصاویر نمای خیابان استفاده شده اند.
مدل جدید بر روی مجموعه دادهای از 1 میلیارد تصویر آموزش داده شده است، که مرتبهای بزرگتر از مجموعه دادههای مورد استفاده برای آموزش مدلهای متن به تصویر قبلی است. در نتیجه، GigaGAN قادر است تصاویری با کیفیت 512 پیکسل در 0.13 ثانیه تولید کند که بیش از 10 برابر سریعتر از پیشرفته ترین مدل قبلی متن به تصویر است.
علاوه بر این، GigaGAN دارای یک فضای نهفته جدا، پیوسته و قابل کنترل است. این بدان معنی است که GigaGAN می تواند تصاویری تولید کند که دارای سبک های مختلف هستند و می توان تصاویر تولید شده را تا حدی کنترل کرد. به عنوان مثال، GigaGAN میتواند تصاویری تولید کند که طرحبندی ورودی متن را حفظ کند، که برای برنامهها مهم است، به عنوان مثال، هنگام تولید تصاویر طرحبندی محصول از توضیحات متن.
GigaGAN همچنین می تواند برای آموزش نمونه برداری کارآمد و با کیفیت بالاتر استفاده شود. این را می توان برای تصاویر واقعی یا برای خروجی های دیگر اعمال کرد مدل های متن به تصویر.
یک شاخه کدگذاری متن، شبکه نگاشت سبک، شبکه سنتز چند مقیاسی، و توجه پایدار و انتخاب هسته تطبیقی، همه بخشی از مولد GigaGAN هستند. توسعه دهندگان شاخه رمزگذاری متن را با استخراج جاسازی های متنی با یک مدل CLIP از پیش آموزش دیده و لایه های توجه آموخته شده آغاز می کنند. StyleGAN، جاسازی به شبکه نگاشت سبک M ارسال می شود که بردار سبک w را ایجاد می کند. برای تولید یک هرم تصویر، شبکه سنتز اکنون از کد سبک به عنوان مدولاسیون و از جاسازی متن به عنوان توجه استفاده می کند. علاوه بر این، توسعه دهندگان انتخاب هسته تطبیقی نمونه را برای انتخاب هسته های کانولوشن به صورت تطبیقی بر اساس شرطی سازی متن ورودی معرفی می کنند.
تفکیک کننده مانند مولد دارای دو شاخه برای پردازش تصویر و شرطی سازی متن است. شاخه متن، مانند مولد، متن را پردازش می کند. به شاخه تصویر یک هرم تصویر داده می شود و وظیفه دارد برای هر مقیاس تصویر پیش بینی های مستقل انجام دهد. علاوه بر این، پیشبینیها در تمام مقیاسهای لایه پایین نمونهبرداری بعدی انجام میشود. زیان های اضافی نیز برای تشویق همگرایی موثر استفاده می شود.
همانطور که در شبکه درون یابی نشان داده شده است، GigaGAN اجازه می دهد تا بین اعلان ها درون یابی صاف را انجام دهد. چهار گوشه با استفاده از همان z نهفته اما اعلانهای متنی متفاوت ایجاد میشوند.
از آنجایی که GigaGAN یک فضای پنهان از هم گسیخته را حفظ می کند، توسعه دهندگان می توانند سبک درشت یک نمونه را با سبک ظریف نمونه دیگر ترکیب کنند. GigaGAN همچنین می تواند استایل را مستقیماً با پیام های متنی کنترل کند.
مقالات مرتبط بیشتر را بخوانید:
سلب مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشترDamir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.