گزارش خبری پیشرفته
نوامبر 23، 2022

Sber AI کاندینسکی 2.0 را ارائه کرده است، اولین مدل متن به تصویر برای تولید به بیش از 100 زبان

به طور خلاصه

Kandinsky 2.0، اولین مدل انتشار چند زبانه، توسط محققان Sber AI با کمک محققان موسسه هوش مصنوعی با استفاده از مجموعه داده ترکیبی از 1 میلیارد جفت متن-تصویر از Sber AI و SberDevices ایجاد و آموزش داده شد.

Diffusion به طور فزاینده ای جایگزین GAN ها و مدل های اتورگرسیو در تعدادی از وظایف پردازش تصویر دیجیتال می شود. این تعجب آور نیست زیرا یادگیری انتشار آسان تر است، به انتخاب پیچیده ای از فراپارامترها، بهینه سازی حداقل حداکثر نیازی ندارد و از بی ثباتی یادگیری رنج نمی برد. و مهمتر از همه، مدل‌های انتشار نتایج پیشرفته‌ای را در تقریباً تمام کارهای تولیدی نشان می‌دهند - تولید تصویر توسط متن، تولید صدا، ویدئو و حتی 3D.

Sber AI کاندینسکی 2.0 را ارائه کرده است، اولین مدل متن به تصویر برای تولید به بیش از 100 زبان
تصویر ایجاد شده توسط کاندینسکی AI

متأسفانه، بیشتر کارها در زمینه تبدیل متن به چیزی فقط به زبان انگلیسی و چینی متمرکز است. برای اصلاح این بی عدالتی، Sber AI تصمیم به ایجاد یک مدل چندزبانه انتشار متن به تصویر کاندینسکی 2.0 که پرس و جوها را به بیش از 100 زبان درک می کند. صورت در آغوش گرفته در حال حاضر کاندینسکی 2.0 را ارائه می دهد. محققان SberAI و SberDevices این کار را انجام داده اند همکاری کرد با کارشناسان موسسه هوش مصنوعی در این پروژه.

انتشار چیست؟

در مقاله 2015 یادگیری عمیق بدون نظارت با استفاده از ترمودینامیک غیر تعادلیمدل‌های انتشار ابتدا به عنوان عمل اختلاط یک ماده که منجر به انتشار می‌شود، توصیف شد که توزیع را برابر می‌کند. همانطور که از عنوان مقاله پیداست، آنها به توضیح مدل های انتشار از طریق چارچوب ترمودینامیک پرداختند.

در مورد تصاویر، چنین فرآیندی ممکن است شبیه به حذف تدریجی نویز گاوسی از تصویر باشد.

مدل های انتشار کاغذ ضرب GANs on Image Synthesis که در سال 2021 منتشر شد، اولین بار بود که برتری مدل‌های انتشار را نسبت به GANS نشان داد. نویسندگان همچنین رویکرد کنترل نسل اول (تهویه سازی) را ابداع کردند که آن را هدایت طبقه بندی کننده نامیدند. این روش با استفاده از گرادیان های طبقه بندی کننده های مختلف (مثلا سگ ها) اشیایی را ایجاد می کند که با کلاس مورد نظر مطابقت دارند. از طریق مکانیسم هنجار گروه تطبیقی، که شامل پیش‌بینی ضرایب نرمال‌سازی است، خود کنترل انجام می‌شود.

این مقاله را می توان نقطه عطفی در زمینه هوش مصنوعی مولد دانست که باعث شد بسیاری به مطالعه انتشار روی آورند. مقالات جدید در مورد متن به ویدئو, تبدیل متن به سه بعدی، تصویر ورودی, تولید صدا، انتشار برای رزولوشن فوق العادهو حتی تولید حرکت هر چند هفته یکبار ظاهر شد.

انتشار متن به تصویر

همانطور که قبلاً ذکر کردیم، کاهش نویز و حذف نویز معمولاً اجزای اصلی فرآیندهای انتشار در زمینه مدالیته‌های تصویر هستند، بنابراین UNet و بسیاری از تغییرات آن اغلب به عنوان معماری اساسی استفاده می‌شوند.

انتشار متن به تصویر
انتشار متن به تصویر

ضروری است که این متن در طول نسل به نوعی مورد توجه قرار گیرد تا تصویری بر اساس آن ایجاد شود. نویسندگان از OpenAI مقاله ای در مورد مدل GLIDE اصلاح رویکرد راهنمای بدون طبقه بندی برای متن را پیشنهاد می کند.

استفاده از رمزگذارهای متنی منجمد شده از پیش تابش شده و مکانیسم افزایش وضوح آبشاری در آینده به طور قابل توجهی تولید متن را بهبود بخشید.تصویر). معلوم شد که نیازی به آموزش قسمت متنی نیست مدل های متن به تصویر به عنوان استفاده از T5-xxl منجمد منجر به بهبود قابل توجهی کیفیت تصویر و درک متن و استفاده از منابع آموزشی بسیار کمتری شد.

نویسندگان یک انتشار نهفته مقاله نشان داد که جزء تصویر در واقع نیازی به آموزش ندارد (حداقل نه به طور کامل). اگر از یک رمزگذار خودکار تصویر قدرتمند (VQ-VAE یا KL-VAE) به عنوان رمزگشای بصری استفاده کنیم و تلاش کنیم تا از فضای پنهان آن به جای خود تصویر، جاسازی‌ها را با انتشار ایجاد کنیم، یادگیری سریع‌تر پیش می‌رود. این روش همچنین پایه و اساس اخیرا منتشر شده است Stable Diffusion مدل.

مدل هوش مصنوعی کاندینسکی 2.0

با چند پیشرفت کلیدی، کاندینسکی 2.0 مبتنی بر تکنیک انتشار پنهان پیشرفته است (ما تصاویر را نمی سازیم، بلکه بردارهای نهفته آنها را می سازیم):

  • از دو رمزگذار متن چند زبانه استفاده کرد و جاسازی‌های آنها را به هم متصل کرد.
  • UNet اضافه شد (1.2 میلیارد پارامتر).
  • روش نمونه گیری آستانه پویا.
مدل هوش مصنوعی کاندینسکی 2.0
مدل هوش مصنوعی کاندینسکی 2.0

محققان از دو رمزگذار چند زبانه به طور همزمان - XLMR-clip و mT5-small- برای ساخت مدل واقعا چند زبانه بنابراین، مدل علاوه بر انگلیسی، روسی، فرانسوی و آلمانی، می تواند زبان هایی مانند مغولی، عبری و فارسی را نیز درک کند. هوش مصنوعی در مجموع 101 زبان می داند. چرا تصمیم به کدگذاری متن با استفاده از دو مدل به طور همزمان گرفته شد؟ از آنجایی که XLMR-clip تصاویر را دیده است و تعبیه های نزدیک برای زبان های مختلف ارائه می دهد، و mT5-small قادر به درک متون پیچیده است، این مدل ها دارای ویژگی های متفاوت اما حیاتی هستند. از آنجایی که هر دو مدل فقط دارای تعداد کمی پارامتر (560M و 146M) هستند، همانطور که در آزمایشات اولیه ما نشان داده شد، تصمیم گرفته شد که از دو رمزگذار به طور همزمان استفاده شود.

تصاویر تازه تولید شده توسط مدل هوش مصنوعی کاندینسکی 2.0 در زیر:

آموزش مدل کاندینسکی 2.0 چگونه انجام شد؟

ابرکامپیوترهای کریستوفاری برای آموزش در پلتفرم ML Space مورد استفاده قرار گرفتند. به 196 کارت NVIDIA A100 نیاز داشت که هر کدام 80 گیگابایت رم داشتند. 14 روز یا 65,856 ساعت GPU طول کشید تا آموزش کامل شود. تجزیه و تحلیل پنج روز در وضوح 256×256، پس از آن شش روز در وضوح 512×512، سپس سه روز دیگر در خالص ترین داده ها طول کشید.

به‌عنوان داده‌های آموزشی، بسیاری از مجموعه‌های داده با هم ترکیب شدند که برای واترمارک‌ها، وضوح پایین و پایبندی کم به توضیحات متن که با معیار CLIP-score اندازه‌گیری شده بود، از قبل فیلتر شده بودند.

نسل چند زبانه

کاندینسکی 2.0 اولین مدل چند زبانه برای ایجاد تصاویر از کلمات است که به ما اولین فرصت برای ارزیابی تغییرات زبانی و بصری در فرهنگ های زبانی را می دهد. نتایج ترجمه یک پرس و جو به چندین زبان در زیر نشان داده شده است. به عنوان مثال، فقط مردان سفیدپوست در نتایج نسل برای پرسش روسی "یک فرد با تحصیلات عالی" ظاهر می شوند، در حالی که نتایج برای ترجمه فرانسوی، "Photo d'une personne diplômée de l'enseignement supérieur" متنوع تر است. مایلم به این نکته اشاره کنم که افراد غمگین با تحصیلات عالی فقط در نسخه روسی زبان حضور دارند.

نسل چند زبانه
اعلان: دزد (1. روسی، 2. انگلیسی، 3. هندی)
نسل چند زبانه
درخواست: فردی با تحصیلات عالی (1. روسی، 2. فرانسوی، 3. چینی)
نسل چند زبانه
درخواست: یک غذای ملی (1. روسی، 2. ژاپنی، 3. هندی)

اگرچه هنوز تعداد زیادی آزمایش با مدل‌های زبانی عظیم و روش‌های مختلف فرآیند انتشار برنامه‌ریزی شده وجود دارد، می‌توانیم با اطمینان بگوییم که کاندینسکی 2.0 اولین مدل انتشار کاملاً چند زبانه است! در وب سایت FusionBrain و Google Colab، ممکن است نمونه هایی از نقاشی های او را ببینید.

درباره هوش مصنوعی بیشتر بخوانید:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

مقالات بیشتر
دامیر یالالوف
دامیر یالالوف

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است. 

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

در میان نوسانات، اشتهای سازمانی به سمت ETF های بیت کوین رشد می کند

افشاگری از طریق پرونده های 13F نشان می دهد که سرمایه گذاران نهادی قابل توجهی در ETF های بیت کوین مشغول هستند و بر پذیرش فزاینده ...

بیشتر بدانید

روز صدور حکم فرا می رسد: با بررسی دادگاه ایالات متحده به درخواست وزارت دادگستری، سرنوشت CZ در تعادل است

چانگ پنگ ژائو امروز در دادگاهی در سیاتل آمریکا محکوم خواهد شد.

بیشتر بدانید
به انجمن فناوری نوآورانه ما بپیوندید
ادامه مطلب
ادامه مطلب
هوش مصنوعی ابدی مبتنی بر بیت کوین رویداد تولید توکن EAI را در لانچ پد Naka راه اندازی می کند
بازارها گزارش خبری پیشرفته
هوش مصنوعی ابدی مبتنی بر بیت کوین رویداد تولید توکن EAI را در لانچ پد Naka راه اندازی می کند
ممکن است 3، 2024
از Gamer Guy تا Meme Coin Sensation: چگونه روایت طنز سیلانا با سرمایه گذاران طنین انداز می شود
گزارش خبری
از Gamer Guy تا Meme Coin Sensation: چگونه روایت طنز سیلانا با سرمایه گذاران طنین انداز می شود
ممکن است 3، 2024
در میان نوسانات، اشتهای سازمانی به سمت ETF های بیت کوین رشد می کند
تحلیل و بررسی کسب و کار بازارها پیشرفته
در میان نوسانات، اشتهای سازمانی به سمت ETF های بیت کوین رشد می کند
ممکن است 3، 2024
XION و TOKI راه اندازی Chain Abstraction ایجاد شده برای BNB Chain Ecosystem را اعلام کردند.
کسب و کار گزارش خبری پیشرفته
XION و TOKI راه اندازی Chain Abstraction ایجاد شده برای BNB Chain Ecosystem را اعلام کردند.
ممکن است 3، 2024
CRYPTOMERIA LABS PTE. محدود