ژانویه 24، 2023

GLIGEN: مدل جدید تولید متن به تصویر منجمد شده با کادر محدود

تاریخ انتشار: 24 ژانویه 2023 ساعت 5:00 بروزرسانی: 21 مارس 2024 ساعت 11:40 ق.ظ.

ویرایش و بررسی شده: 24 ژانویه 2023 ساعت 5:00 بعد از ظهر

به طور خلاصه

GLIGEN یا Grounded-Language-to-Image Generation، یک تکنیک جدید است که بر روی مدل‌های انتشار از پیش آموزش‌دیده کنونی ساخته شده و قابلیت آن را گسترش می‌دهد.

مدل GLIGEN با ورودی‌های شرط کادر و زیرنویس، text2img جهان باز را تولید می‌کند.

GLIGEN می تواند اشیاء مختلفی را در مکان ها و سبک های خاص با استفاده از دانش یک مدل text2img از پیش آموزش دیده ایجاد کند.

GLIGEN همچنین ممکن است هنگام ایجاد متن به تصویر، نقاط کلیدی انسانی را زمین‌بندی کند.

مدل های انتشار متن به تصویر در مقیاس بزرگ راه طولانی را پیموده اند. با این حال، رویه فعلی این است که فقط به ورودی متن تکیه کنیم، که می تواند کنترل پذیری را محدود کند. گلیگن، یا Grounded-Language-to-Image Generation، تکنیک جدیدی است که بر روی مدل های از پیش آموزش داده شده انتشار متن به تصویر کنونی ایجاد می کند و با اجازه دادن به آنها برای شرطی شدن در ورودی های زمینی، توانایی آن ها را توسعه می دهد.

GLIGEN: مدل جدید تولید متن به تصویر منجمد شده با کادر محدود

برای حفظ دانش مفهومی گسترده مدل از پیش آموزش‌دیده، توسعه‌دهندگان تمام وزن‌های آن را منجمد می‌کنند و اطلاعات زمین را از طریق یک فرآیند کنترل‌شده به لایه‌های تازه قابل آموزش پمپ می‌کنند. مدل GLIGEN با ورودی‌های شرط کادر و زیرنویس، متن به تصویر مبتنی بر جهان باز را ایجاد می‌کند و توانایی زمین‌سازی به طور مؤثری به پیکربندی‌ها و مفاهیم فضایی جدید تعمیم می‌یابد.

اتمام نسخه ی نمایشی اینجا.

GLIGEN بر اساس مدل‌های انتشار از پیش آموزش‌دیده موجود است که وزن‌های اصلی آن‌ها برای حفظ مقادیر عظیمی از دانش از پیش آموزش‌دیده منجمد شده‌اند.

GLIGEN بر اساس موجود از قبل آموزش دیده است مدل های انتشارکه وزن های اصلی آن برای حفظ مقادیر عظیمی از دانش از پیش آموزش دیده منجمد شده است.
در هر بلوک ترانسفورماتور، یک لایه خودتوجهی دروازه ای جدید برای جذب ورودی زمین اضافی ایجاد می شود.
هر نشانه زمینی دارای دو نوع اطلاعات است: اطلاعات معنایی در مورد چیز پایه (متن یا تصویر رمزگذاری شده) و اطلاعات موقعیت مکانی (جعبه مرزی رمزگذاری شده یا نقاط کلیدی).

مقاله مرتبط: VToonify: یک مدل هوش مصنوعی در زمان واقعی برای تولید ویدیوهای پرتره هنری

لایه‌های مدوله‌شده جدید به‌طور مداوم روی داده‌های زمینی عظیم (جعبه-تصویر-جعبه) از قبل آموزش داده می‌شوند، که مقرون به صرفه‌تر از روش‌های جایگزین استفاده از یک مدل انتشار از پیش آموزش‌دیده، مانند تنظیم دقیق مدل کامل است. مشابه لگو، لایه‌های آموزش‌دیده متفاوتی را می‌توان به برق وصل و خارج کرد تا قابلیت‌های جدید مختلفی را فراهم کند. — لایه های مدوله شده جدید اضافه شده به طور مداوم بر روی داده های زمینی عظیم (جعبه-تصویر-متن) از قبل آموزش داده می شوند. این مقرون به صرفه تر از روش های جایگزین استفاده از از پیش آموزش دیده است مدل انتشارمانند تنظیم دقیق مدل کامل. مشابه لگو، لایه‌های آموزش‌دیده متفاوتی را می‌توان به برق وصل و خارج کرد تا قابلیت‌های جدید مختلفی را فراهم کند.

GLIGEN از نمونه‌برداری برنامه‌ریزی‌شده در فرآیند انتشار برای استنتاج پشتیبانی می‌کند، جایی که مدل می‌تواند به صورت پویا انتخاب کند که از نشانه‌های زمین (با افزودن لایه جدید) یا مدل انتشار اصلی با قبل خوب (با بیرون انداختن لایه جدید) استفاده کند و در نتیجه کیفیت تولید را متعادل کند. و قابلیت اتصال به زمین

GLIGEN می تواند اشیاء مختلفی را در مکان ها و سبک های خاص با استفاده از دانش یک مدل text2img از پیش آموزش دیده ایجاد کند.

مقاله مرتبط: مایکروسافت مدلی منتشر کرده است که می تواند یک آواتار سه بعدی از یک عکس یک شخص بسازد

GLIGEN را می توان با استفاده از عکس های مرجع نیز آموزش داد. ردیف بالا نشان می‌دهد که عکس‌های مرجع، علاوه بر توضیحات نوشته شده، می‌توانند ویژگی‌های ظریف‌تری مانند سبک و شکل خودرو را ارائه دهند. ردیف دوم نشان می دهد که یک تصویر مرجع می تواند به عنوان یک تصویر سبک نیز استفاده شود، در این صورت متوجه می شویم که زمین کردن آن در گوشه یا لبه یک تصویر کافی است.

GLIGEN، مانند سایر مدل‌های انتشار، می‌تواند رنگ‌های تصویری زمینی را انجام دهد، که می‌تواند اشیایی را ایجاد کند که دقیقاً با جعبه‌های محدود ارائه شده مطابقت دارند.

GLIGEN همچنین ممکن است هنگام ایجاد متن به تصویر، نقاط کلیدی انسانی را زمین‌بندی کند. — GLIGEN همچنین ممکن است نقاط کلیدی انسان را در حالی که تولید متن به تصویر.

درباره هوش مصنوعی بیشتر بخوانید:

برچسب ها:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.

مقالات بیشتر

دامیر یالالوف