GLIGEN: مدل جدید تولید متن به تصویر منجمد شده با کادر محدود
به طور خلاصه
GLIGEN یا Grounded-Language-to-Image Generation، یک تکنیک جدید است که بر روی مدلهای انتشار از پیش آموزشدیده کنونی ساخته شده و قابلیت آن را گسترش میدهد.
مدل GLIGEN با ورودیهای شرط کادر و زیرنویس، text2img جهان باز را تولید میکند.
GLIGEN می تواند اشیاء مختلفی را در مکان ها و سبک های خاص با استفاده از دانش یک مدل text2img از پیش آموزش دیده ایجاد کند.
GLIGEN همچنین ممکن است هنگام ایجاد متن به تصویر، نقاط کلیدی انسانی را زمینبندی کند.
مدل های انتشار متن به تصویر در مقیاس بزرگ راه طولانی را پیموده اند. با این حال، رویه فعلی این است که فقط به ورودی متن تکیه کنیم، که می تواند کنترل پذیری را محدود کند. گلیگن، یا Grounded-Language-to-Image Generation، تکنیک جدیدی است که بر روی مدل های از پیش آموزش داده شده انتشار متن به تصویر کنونی ایجاد می کند و با اجازه دادن به آنها برای شرطی شدن در ورودی های زمینی، توانایی آن ها را توسعه می دهد.
برای حفظ دانش مفهومی گسترده مدل از پیش آموزشدیده، توسعهدهندگان تمام وزنهای آن را منجمد میکنند و اطلاعات زمین را از طریق یک فرآیند کنترلشده به لایههای تازه قابل آموزش پمپ میکنند. مدل GLIGEN با ورودیهای شرط کادر و زیرنویس، متن به تصویر مبتنی بر جهان باز را ایجاد میکند و توانایی زمینسازی به طور مؤثری به پیکربندیها و مفاهیم فضایی جدید تعمیم مییابد.
اتمام نسخه ی نمایشی اینجا.
- GLIGEN بر اساس موجود از قبل آموزش دیده است مدل های انتشارکه وزن های اصلی آن برای حفظ مقادیر عظیمی از دانش از پیش آموزش دیده منجمد شده است.
- در هر بلوک ترانسفورماتور، یک لایه خودتوجهی دروازه ای جدید برای جذب ورودی زمین اضافی ایجاد می شود.
- هر نشانه زمینی دارای دو نوع اطلاعات است: اطلاعات معنایی در مورد چیز پایه (متن یا تصویر رمزگذاری شده) و اطلاعات موقعیت مکانی (جعبه مرزی رمزگذاری شده یا نقاط کلیدی).
درباره هوش مصنوعی بیشتر بخوانید:
سلب مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشترDamir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.