گزارش خبری پیشرفته
ژانویه 24، 2023

GLIGEN: مدل جدید تولید متن به تصویر منجمد شده با کادر محدود

به طور خلاصه

GLIGEN یا Grounded-Language-to-Image Generation، یک تکنیک جدید است که بر روی مدل‌های انتشار از پیش آموزش‌دیده کنونی ساخته شده و قابلیت آن را گسترش می‌دهد.

مدل GLIGEN با ورودی‌های شرط کادر و زیرنویس، text2img جهان باز را تولید می‌کند.

GLIGEN می تواند اشیاء مختلفی را در مکان ها و سبک های خاص با استفاده از دانش یک مدل text2img از پیش آموزش دیده ایجاد کند.

GLIGEN همچنین ممکن است هنگام ایجاد متن به تصویر، نقاط کلیدی انسانی را زمین‌بندی کند.

مدل های انتشار متن به تصویر در مقیاس بزرگ راه طولانی را پیموده اند. با این حال، رویه فعلی این است که فقط به ورودی متن تکیه کنیم، که می تواند کنترل پذیری را محدود کند. گلیگن، یا Grounded-Language-to-Image Generation، تکنیک جدیدی است که بر روی مدل های از پیش آموزش داده شده انتشار متن به تصویر کنونی ایجاد می کند و با اجازه دادن به آنها برای شرطی شدن در ورودی های زمینی، توانایی آن ها را توسعه می دهد.

GLIGEN: مدل جدید تولید متن به تصویر منجمد شده با کادر محدود

برای حفظ دانش مفهومی گسترده مدل از پیش آموزش‌دیده، توسعه‌دهندگان تمام وزن‌های آن را منجمد می‌کنند و اطلاعات زمین را از طریق یک فرآیند کنترل‌شده به لایه‌های تازه قابل آموزش پمپ می‌کنند. مدل GLIGEN با ورودی‌های شرط کادر و زیرنویس، متن به تصویر مبتنی بر جهان باز را ایجاد می‌کند و توانایی زمین‌سازی به طور مؤثری به پیکربندی‌ها و مفاهیم فضایی جدید تعمیم می‌یابد.

اتمام نسخه ی نمایشی اینجا.

GLIGEN بر اساس مدل‌های انتشار از پیش آموزش‌دیده موجود است که وزن‌های اصلی آن‌ها برای حفظ مقادیر عظیمی از دانش از پیش آموزش‌دیده منجمد شده‌اند.
  • GLIGEN بر اساس موجود از قبل آموزش دیده است مدل های انتشارکه وزن های اصلی آن برای حفظ مقادیر عظیمی از دانش از پیش آموزش دیده منجمد شده است.
  • در هر بلوک ترانسفورماتور، یک لایه خودتوجهی دروازه ای جدید برای جذب ورودی زمین اضافی ایجاد می شود.
  • هر نشانه زمینی دارای دو نوع اطلاعات است: اطلاعات معنایی در مورد چیز پایه (متن یا تصویر رمزگذاری شده) و اطلاعات موقعیت مکانی (جعبه مرزی رمزگذاری شده یا نقاط کلیدی).
مقاله مرتبط: VToonify: یک مدل هوش مصنوعی در زمان واقعی برای تولید ویدیوهای پرتره هنری
لایه‌های مدوله‌شده جدید به‌طور مداوم روی داده‌های زمینی عظیم (جعبه-تصویر-جعبه) از قبل آموزش داده می‌شوند، که مقرون به صرفه‌تر از روش‌های جایگزین استفاده از یک مدل انتشار از پیش آموزش‌دیده، مانند تنظیم دقیق مدل کامل است. مشابه لگو، لایه‌های آموزش‌دیده متفاوتی را می‌توان به برق وصل و خارج کرد تا قابلیت‌های جدید مختلفی را فراهم کند.
لایه های مدوله شده جدید اضافه شده به طور مداوم بر روی داده های زمینی عظیم (جعبه-تصویر-متن) از قبل آموزش داده می شوند. این مقرون به صرفه تر از روش های جایگزین استفاده از از پیش آموزش دیده است مدل انتشارمانند تنظیم دقیق مدل کامل. مشابه لگو، لایه‌های آموزش‌دیده متفاوتی را می‌توان به برق وصل و خارج کرد تا قابلیت‌های جدید مختلفی را فراهم کند.
GLIGEN از نمونه‌برداری برنامه‌ریزی‌شده در فرآیند انتشار برای استنتاج پشتیبانی می‌کند، جایی که مدل می‌تواند به صورت پویا انتخاب کند که از نشانه‌های زمین (با افزودن لایه جدید) یا مدل انتشار اصلی با قبل خوب (با بیرون انداختن لایه جدید) استفاده کند و در نتیجه کیفیت تولید را متعادل کند. و قابلیت اتصال به زمین
GLIGEN از نمونه‌برداری برنامه‌ریزی‌شده در فرآیند انتشار برای استنتاج پشتیبانی می‌کند، جایی که مدل می‌تواند به صورت پویا انتخاب کند که از نشانه‌های زمین (با افزودن لایه جدید) یا مدل انتشار اصلی با قبل خوب (با بیرون انداختن لایه جدید) استفاده کند و در نتیجه کیفیت تولید را متعادل کند. و قابلیت اتصال به زمین
GLIGEN می تواند اشیاء مختلفی را در مکان ها و سبک های خاص با استفاده از دانش یک مدل text2img از پیش آموزش دیده ایجاد کند.
GLIGEN می تواند اشیاء مختلفی را در مکان ها و سبک های خاص با استفاده از دانش یک مدل text2img از پیش آموزش دیده ایجاد کند.
مقاله مرتبط: مایکروسافت مدلی منتشر کرده است که می تواند یک آواتار سه بعدی از یک عکس یک شخص بسازد
GLIGEN را می توان با استفاده از عکس های مرجع نیز آموزش داد.
GLIGEN را می توان با استفاده از عکس های مرجع نیز آموزش داد. ردیف بالا نشان می‌دهد که عکس‌های مرجع، علاوه بر توضیحات نوشته شده، می‌توانند ویژگی‌های ظریف‌تری مانند سبک و شکل خودرو را ارائه دهند. ردیف دوم نشان می دهد که یک تصویر مرجع می تواند به عنوان یک تصویر سبک نیز استفاده شود، در این صورت متوجه می شویم که زمین کردن آن در گوشه یا لبه یک تصویر کافی است.
GLIGEN، مانند سایر مدل‌های انتشار، می‌تواند رنگ‌های تصویری زمینی را انجام دهد، که می‌تواند اشیایی را ایجاد کند که دقیقاً با جعبه‌های محدود ارائه شده مطابقت دارند.
GLIGEN، مانند سایر مدل‌های انتشار، می‌تواند رنگ‌های تصویری زمینی را انجام دهد، که می‌تواند اشیایی را ایجاد کند که دقیقاً با جعبه‌های محدود ارائه شده مطابقت دارند.
GLIGEN همچنین ممکن است هنگام ایجاد متن به تصویر، نقاط کلیدی انسانی را زمین‌بندی کند.
GLIGEN همچنین ممکن است نقاط کلیدی انسان را در حالی که تولید متن به تصویر.

درباره هوش مصنوعی بیشتر بخوانید:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

در میان نوسانات، اشتهای سازمانی به سمت ETF های بیت کوین رشد می کند

افشاگری از طریق پرونده های 13F نشان می دهد که سرمایه گذاران نهادی قابل توجهی در ETF های بیت کوین مشغول هستند و بر پذیرش فزاینده ...

بیشتر بدانید

روز صدور حکم فرا می رسد: با بررسی دادگاه ایالات متحده به درخواست وزارت دادگستری، سرنوشت CZ در تعادل است

چانگ پنگ ژائو امروز در دادگاهی در سیاتل آمریکا محکوم خواهد شد.

بیشتر بدانید
به انجمن فناوری نوآورانه ما بپیوندید
ادامه مطلب
ادامه مطلب
Injective با AltLayer نیروها را به هم می پیوندد تا امنیت مجدد را به inEVM بیاورد
کسب و کار گزارش خبری پیشرفته
Injective با AltLayer نیروها را به هم می پیوندد تا امنیت مجدد را به inEVM بیاورد
ممکن است 3، 2024
Masa با Teller همکاری می کند تا استخر وام MASA را معرفی کند، وام USDC را بر اساس امکان پذیر می کند
بازارها گزارش خبری پیشرفته
Masa با Teller همکاری می کند تا استخر وام MASA را معرفی کند، وام USDC را بر اساس امکان پذیر می کند
ممکن است 3، 2024
Velodrome نسخه بتا سوپرچین را در هفته‌های آینده عرضه می‌کند و در سراسر بلاک‌چین‌های OP Stack Layer 2 گسترش می‌یابد
بازارها گزارش خبری پیشرفته
Velodrome نسخه بتا سوپرچین را در هفته‌های آینده عرضه می‌کند و در سراسر بلاک‌چین‌های OP Stack Layer 2 گسترش می‌یابد
ممکن است 3، 2024
CARV شراکت با Aethir را برای تمرکززدایی لایه داده خود و توزیع جوایز اعلام می کند.
کسب و کار گزارش خبری پیشرفته
CARV شراکت با Aethir را برای تمرکززدایی لایه داده خود و توزیع جوایز اعلام می کند.
ممکن است 3، 2024
CRYPTOMERIA LABS PTE. محدود