Sber AI کاندینسکی 2.0 را ارائه کرده است، اولین مدل متن به تصویر برای تولید به بیش از 100 زبان
به طور خلاصه
Kandinsky 2.0، اولین مدل انتشار چند زبانه، توسط محققان Sber AI با کمک محققان موسسه هوش مصنوعی با استفاده از مجموعه داده ترکیبی از 1 میلیارد جفت متن-تصویر از Sber AI و SberDevices ایجاد و آموزش داده شد.
Diffusion به طور فزاینده ای جایگزین GAN ها و مدل های اتورگرسیو در تعدادی از وظایف پردازش تصویر دیجیتال می شود. این تعجب آور نیست زیرا یادگیری انتشار آسان تر است، به انتخاب پیچیده ای از فراپارامترها، بهینه سازی حداقل حداکثر نیازی ندارد و از بی ثباتی یادگیری رنج نمی برد. و مهمتر از همه، مدلهای انتشار نتایج پیشرفتهای را در تقریباً تمام کارهای تولیدی نشان میدهند - تولید تصویر توسط متن، تولید صدا، ویدئو و حتی 3D.
متأسفانه، بیشتر کارها در زمینه تبدیل متن به چیزی فقط به زبان انگلیسی و چینی متمرکز است. برای اصلاح این بی عدالتی، Sber AI تصمیم به ایجاد یک مدل چندزبانه انتشار متن به تصویر کاندینسکی 2.0 که پرس و جوها را به بیش از 100 زبان درک می کند. صورت در آغوش گرفته در حال حاضر کاندینسکی 2.0 را ارائه می دهد. محققان SberAI و SberDevices این کار را انجام داده اند همکاری کرد با کارشناسان موسسه هوش مصنوعی در این پروژه.
انتشار چیست؟
در مقاله 2015 یادگیری عمیق بدون نظارت با استفاده از ترمودینامیک غیر تعادلیمدلهای انتشار ابتدا به عنوان عمل اختلاط یک ماده که منجر به انتشار میشود، توصیف شد که توزیع را برابر میکند. همانطور که از عنوان مقاله پیداست، آنها به توضیح مدل های انتشار از طریق چارچوب ترمودینامیک پرداختند.
در مورد تصاویر، چنین فرآیندی ممکن است شبیه به حذف تدریجی نویز گاوسی از تصویر باشد.
مدل های انتشار کاغذ ضرب GANs on Image Synthesis که در سال 2021 منتشر شد، اولین بار بود که برتری مدلهای انتشار را نسبت به GANS نشان داد. نویسندگان همچنین رویکرد کنترل نسل اول (تهویه سازی) را ابداع کردند که آن را هدایت طبقه بندی کننده نامیدند. این روش با استفاده از گرادیان های طبقه بندی کننده های مختلف (مثلا سگ ها) اشیایی را ایجاد می کند که با کلاس مورد نظر مطابقت دارند. از طریق مکانیسم هنجار گروه تطبیقی، که شامل پیشبینی ضرایب نرمالسازی است، خود کنترل انجام میشود.
این مقاله را می توان نقطه عطفی در زمینه هوش مصنوعی مولد دانست که باعث شد بسیاری به مطالعه انتشار روی آورند. مقالات جدید در مورد متن به ویدئو, تبدیل متن به سه بعدی، تصویر ورودی, تولید صدا، انتشار برای رزولوشن فوق العادهو حتی تولید حرکت هر چند هفته یکبار ظاهر شد.
انتشار متن به تصویر
همانطور که قبلاً ذکر کردیم، کاهش نویز و حذف نویز معمولاً اجزای اصلی فرآیندهای انتشار در زمینه مدالیتههای تصویر هستند، بنابراین UNet و بسیاری از تغییرات آن اغلب به عنوان معماری اساسی استفاده میشوند.
ضروری است که این متن در طول نسل به نوعی مورد توجه قرار گیرد تا تصویری بر اساس آن ایجاد شود. نویسندگان از OpenAI مقاله ای در مورد مدل GLIDE اصلاح رویکرد راهنمای بدون طبقه بندی برای متن را پیشنهاد می کند.
استفاده از رمزگذارهای متنی منجمد شده از پیش تابش شده و مکانیسم افزایش وضوح آبشاری در آینده به طور قابل توجهی تولید متن را بهبود بخشید.تصویر). معلوم شد که نیازی به آموزش قسمت متنی نیست مدل های متن به تصویر به عنوان استفاده از T5-xxl منجمد منجر به بهبود قابل توجهی کیفیت تصویر و درک متن و استفاده از منابع آموزشی بسیار کمتری شد.
نویسندگان یک انتشار نهفته مقاله نشان داد که جزء تصویر در واقع نیازی به آموزش ندارد (حداقل نه به طور کامل). اگر از یک رمزگذار خودکار تصویر قدرتمند (VQ-VAE یا KL-VAE) به عنوان رمزگشای بصری استفاده کنیم و تلاش کنیم تا از فضای پنهان آن به جای خود تصویر، جاسازیها را با انتشار ایجاد کنیم، یادگیری سریعتر پیش میرود. این روش همچنین پایه و اساس اخیرا منتشر شده است Stable Diffusion مدل.
مدل هوش مصنوعی کاندینسکی 2.0
با چند پیشرفت کلیدی، کاندینسکی 2.0 مبتنی بر تکنیک انتشار پنهان پیشرفته است (ما تصاویر را نمی سازیم، بلکه بردارهای نهفته آنها را می سازیم):
- از دو رمزگذار متن چند زبانه استفاده کرد و جاسازیهای آنها را به هم متصل کرد.
- UNet اضافه شد (1.2 میلیارد پارامتر).
- روش نمونه گیری آستانه پویا.
محققان از دو رمزگذار چند زبانه به طور همزمان - XLMR-clip و mT5-small- برای ساخت مدل واقعا چند زبانه بنابراین، مدل علاوه بر انگلیسی، روسی، فرانسوی و آلمانی، می تواند زبان هایی مانند مغولی، عبری و فارسی را نیز درک کند. هوش مصنوعی در مجموع 101 زبان می داند. چرا تصمیم به کدگذاری متن با استفاده از دو مدل به طور همزمان گرفته شد؟ از آنجایی که XLMR-clip تصاویر را دیده است و تعبیه های نزدیک برای زبان های مختلف ارائه می دهد، و mT5-small قادر به درک متون پیچیده است، این مدل ها دارای ویژگی های متفاوت اما حیاتی هستند. از آنجایی که هر دو مدل فقط دارای تعداد کمی پارامتر (560M و 146M) هستند، همانطور که در آزمایشات اولیه ما نشان داده شد، تصمیم گرفته شد که از دو رمزگذار به طور همزمان استفاده شود.
تصاویر تازه تولید شده توسط مدل هوش مصنوعی کاندینسکی 2.0 در زیر:
آموزش مدل کاندینسکی 2.0 چگونه انجام شد؟
ابرکامپیوترهای کریستوفاری برای آموزش در پلتفرم ML Space مورد استفاده قرار گرفتند. به 196 کارت NVIDIA A100 نیاز داشت که هر کدام 80 گیگابایت رم داشتند. 14 روز یا 65,856 ساعت GPU طول کشید تا آموزش کامل شود. تجزیه و تحلیل پنج روز در وضوح 256×256، پس از آن شش روز در وضوح 512×512، سپس سه روز دیگر در خالص ترین داده ها طول کشید.
بهعنوان دادههای آموزشی، بسیاری از مجموعههای داده با هم ترکیب شدند که برای واترمارکها، وضوح پایین و پایبندی کم به توضیحات متن که با معیار CLIP-score اندازهگیری شده بود، از قبل فیلتر شده بودند.
نسل چند زبانه
کاندینسکی 2.0 اولین مدل چند زبانه برای ایجاد تصاویر از کلمات است که به ما اولین فرصت برای ارزیابی تغییرات زبانی و بصری در فرهنگ های زبانی را می دهد. نتایج ترجمه یک پرس و جو به چندین زبان در زیر نشان داده شده است. به عنوان مثال، فقط مردان سفیدپوست در نتایج نسل برای پرسش روسی "یک فرد با تحصیلات عالی" ظاهر می شوند، در حالی که نتایج برای ترجمه فرانسوی، "Photo d'une personne diplômée de l'enseignement supérieur" متنوع تر است. مایلم به این نکته اشاره کنم که افراد غمگین با تحصیلات عالی فقط در نسخه روسی زبان حضور دارند.
اگرچه هنوز تعداد زیادی آزمایش با مدلهای زبانی عظیم و روشهای مختلف فرآیند انتشار برنامهریزی شده وجود دارد، میتوانیم با اطمینان بگوییم که کاندینسکی 2.0 اولین مدل انتشار کاملاً چند زبانه است! در وب سایت FusionBrain و Google Colab، ممکن است نمونه هایی از نقاشی های او را ببینید.
درباره هوش مصنوعی بیشتر بخوانید:
سلب مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.
مقالات بیشترDamir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.