تقرير الأخبار تكنولوجيا
23 نوفمبر، 2022

قدمت Sber AI برنامج Kandinsky 2.0 ، وهو أول نموذج لتحويل النص إلى صورة يتم إنشاؤه بأكثر من 100 لغة

في سطور

تم إنشاء Kandinsky 2.0 ، أول نموذج نشر متعدد اللغات ، وتدريبه بواسطة باحثين في Sber AI بمساعدة باحثين من معهد الذكاء الاصطناعي AI باستخدام مجموعة بيانات مجمعة من 1 مليار زوج من الصور النصية من Sber AI و SberDevices

يحل الانتشار بشكل متزايد محل شبكات GAN ونماذج الانحدار الذاتي في عدد من مهام معالجة الصور الرقمية. هذا ليس مفاجئًا لأن الانتشار أسهل في التعلم ، ولا يتطلب مجموعة معقدة من المعلمات الفائقة ، وتحسين min-max ، ولا يعاني من عدم استقرار التعلم. والأهم من ذلك ، تُظهر نماذج الانتشار أحدث النتائج في جميع المهام التوليدية تقريبًا - إنشاء الصور بالنص وتوليد الصوت والفيديو وحتى 3D.

قدمت Sber AI برنامج Kandinsky 2.0 ، وهو أول نموذج لتحويل النص إلى صورة يتم إنشاؤه بأكثر من 100 لغة
الصورة التي تم إنشاؤها بواسطة Kandinsky AI

لسوء الحظ ، فإن معظم العمل في مجال تحويل النص إلى شيء يركز فقط على اللغة الإنجليزية والصينية. لتصحيح هذا الظلم ، Sber AI قررت أن تخلق نموذج نشر نص إلى صورة متعدد اللغات Kandinsky 2.0 ، والذي يفهم الاستعلامات في أكثر من 100 لغة. تعانق الوجه يقدم بالفعل Kandinsky 2.0. الباحثون من SberAI و SberDevices لديهم تعاونت مع خبراء من معهد الذكاء الاصطناعي للذكاء الاصطناعي في هذا المشروع.

ما هو الانتشار؟

في مقال 2015 التعلم العميق غير الخاضع للإشراف باستخدام الديناميكا الحرارية بلا توازن، تم وصف نماذج الانتشار أولاً بأنها فعل خلط مادة ينتج عنها انتشار ، مما يعادل التوزيع. كما يوحي عنوان المقال ، فقد اقتربوا من شرح نماذج الانتشار من خلال إطار الديناميكا الحرارية.

في حالة الصور ، قد تشبه هذه العملية ، على سبيل المثال ، إزالة ضوضاء Gaussian تدريجياً من الصورة.

نماذج الانتشار الورقي فاز كانت GANs on Image Synthesis ، التي نُشرت في عام 2021 ، أول من أظهر تفوق نماذج الانتشار على GANS. ابتكر المؤلفون أيضًا نهج التحكم من الجيل الأول (التكييف) ، والذي أطلقوا عليه اسم إرشادات المصنف. تنشئ هذه الطريقة كائنات تناسب الفئة المقصودة باستخدام تدرجات من مصنف مختلف (على سبيل المثال ، الكلاب). من خلال آلية معايير المجموعة التكيفية ، والتي تتضمن التنبؤ بمعاملات التطبيع ، يتم تنفيذ التحكم نفسه.

يمكن اعتبار هذه المقالة نقطة تحول في مجال الذكاء الاصطناعي التوليدي ، مما دفع الكثيرين إلى اللجوء إلى دراسة الانتشار. مقالات جديدة حول نص إلى فيديو, نص إلى ثلاثي الأبعاد، صورة com.inpainting, توليد الصوت، نشر ل دقة فائقة، وحتى جيل الحركة بدأ في الظهور كل بضعة أسابيع.

نشر النص إلى الصورة

كما ذكرنا سابقًا ، يعد الحد من الضوضاء والقضاء على التشويش عادةً المكونات الرئيسية لعمليات الانتشار في سياق طرائق الصورة ، لذلك غالبًا ما تستخدم UNet وتنوعاتها العديدة باعتبارها البنية الأساسية.

نشر النص إلى الصورة
نشر النص إلى الصورة

من الضروري أن يؤخذ هذا النص في الاعتبار بطريقة ما خلال الجيل من أجل تكوين صورة مبنية عليه. مؤلفو OpenAI مقالة عن نموذج GLIDE اقترحت تعديل نهج التوجيه الخالي من المصنف للنص.

أدى استخدام مشفرات النص المجمدة المُعالجة مسبقًا للإشعاع وآلية تعزيز الدقة المتتالية في المستقبل إلى تحسين إنتاج النص بشكل كبير (صورة). اتضح أنه ليست هناك حاجة لتدريب جزء النص من نماذج النص إلى الصورة حيث أدى استخدام T5-xxl المجمد إلى تحسين جودة الصورة وفهم النص بشكل كبير واستخدام موارد تدريب أقل بكثير.

مؤلفو أ الانتشار الكامن أوضح المقال أن مكون الصورة في الواقع لا يتطلب تدريبًا (على الأقل ليس تمامًا). سيستمر التعلم بسرعة أكبر إذا استخدمنا أداة تشفير تلقائية قوية للصور (VQ-VAE أو KL-VAE) كوحدة فك ترميز مرئية وحاولنا إنشاء عمليات دمج من مساحتها الكامنة عن طريق الانتشار بدلاً من الصورة نفسها. هذه المنهجية هي أيضًا أساس الإصدار الأخير Stable Diffusion نموذج.

نموذج Kandinsky 2.0 AI

مع بعض التحسينات الرئيسية ، يعتمد Kandinsky 2.0 على تقنية Latent Diffusion المحسّنة (لا نصنع صورًا ، بل نواقلها الكامنة):

  • توظيف جهازي تشفير نصيين متعددي اللغات وسلسلة حفلات الزفاف الخاصة بهم.
  • تمت إضافة UNet (1.2 مليار معلمة).
  • إجراء أخذ العينات عتبة ديناميكية.
نموذج Kandinsky 2.0 AI
نموذج Kandinsky 2.0 AI

استخدم الباحثون مشفرين متعددي اللغات في وقت واحد - مقطع XLMR و mT5 - صغير - من أجل جعل نموذج متعدد اللغات حقا. لذلك ، بالإضافة إلى اللغة الإنجليزية والروسية والفرنسية والألمانية ، يمكن للنموذج أيضًا فهم لغات مثل المنغولية والعبرية والفارسية. يعرف الذكاء الاصطناعي ما مجموعه 101 لغة. لماذا تقرر ترميز النص باستخدام نموذجين في وقت واحد؟ نظرًا لأن مقطع XLMR قد شاهد صورًا ويوفر حفلات زفاف قريبة للغات مختلفة ، وأن mT5-small قادر على فهم النصوص المعقدة ، فإن هذه النماذج لها ميزات مختلفة ولكنها مهمة. نظرًا لأن كلا النموذجين لا يحتويان إلا على عدد صغير من المعلمات (560 م و 146 م) ، كما هو موضح في اختباراتنا الأولية ، فقد تقرر استخدام مشفرين في وقت واحد.

الصور التي تم إنشاؤها حديثًا بواسطة نموذج Kandinsky 2.0 AI أدناه:

كيف تم تدريب نموذج Kandinsky 2.0؟

تم استخدام أجهزة الكمبيوتر العملاقة Christofari للتدريب على منصة ML Space. تطلبت 196 بطاقة NVIDIA A100 ، كل منها به 80 جيجابايت من ذاكرة الوصول العشوائي. استغرق الأمر 14 يومًا ، أو 65,856 ساعة GPU ، لإكمال التدريب. استغرق التحليل خمسة أيام بدقة 256 × 256 ، تليها ستة أيام بدقة 512 × 512 ، ثم ثلاثة أيام إضافية في أنقى البيانات.

كبيانات تدريبية ، تم دمج العديد من مجموعات البيانات التي تمت تصفيتها مسبقًا للعلامات المائية ، والدقة المنخفضة ، والالتزام المنخفض بالوصف النصي كما تم قياسه بواسطة مقياس درجة CLIP.

جيل متعدد اللغات

Kandinsky 2.0 هو أول نموذج متعدد اللغات لإنشاء صور من الكلمات ، مما يمنحنا الفرصة الأولى لتقييم التغييرات اللغوية والبصرية عبر ثقافات اللغة. يتم عرض نتائج ترجمة نفس الاستعلام إلى عدة لغات أدناه. على سبيل المثال ، يظهر الرجال البيض فقط في نتائج الجيل للاستعلام الروسي "شخص حاصل على تعليم عالٍ" ، في حين أن نتائج الترجمة الفرنسية ، "Photo d'une personne Diplômée de l'enseignement supérieur" أكثر تنوعًا. أود أن أشير إلى أن الأشخاص الحزينين الحاصلين على تعليم عال موجودون فقط في النسخة باللغة الروسية.

جيل متعدد اللغات
موجه: السارق (1. الروسية ، 2. الإنجليزية ، 3. الهندية)
جيل متعدد اللغات
موجه: شخص حاصل على تعليم عالي (1. روسي ، 2. فرنسي ، 3. صيني)
جيل متعدد اللغات
سريع: طبق وطني (1. روسي ، 2. ياباني ، 3. هندي)

على الرغم من أنه لا يزال هناك الكثير من التجارب مع نماذج لغوية ضخمة وطرق مختلفة لعملية الانتشار المخطط لها ، يمكننا بالفعل القول بثقة أن Kandinsky 2.0 هو أول نموذج نشر متعدد اللغات تمامًا! على ال موقع FusionBrain و جوجل كولاب، قد ترى أمثلة لرسوماتها.

اقرأ المزيد عن الذكاء الاصطناعي:

إخلاء المسئولية

تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.

نبذة عن الكاتب

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

المزيد من المقالات
دامير يالالوف
دامير يالالوف

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

Hot Stories
اشترك في صحيفتنا الإخبارية.
آخـر الأخبار

وصول يوم النطق بالحكم: مصير تشيكوسلوفاكيا معلق في الميزان بينما تنظر المحكمة الأمريكية في التماس وزارة العدل

ومن المقرر أن يواجه Changpeng Zhao الحكم في محكمة أمريكية في سياتل اليوم.

أعرف المزيد

مؤسسو Samourai Wallet متهمون بتسهيل صفقات بقيمة 2 مليار دولار في Darknet

يمثل إلقاء القبض على مؤسسي Samourai Wallet انتكاسة ملحوظة لهذه الصناعة، مما يؤكد استمرار ...

أعرف المزيد
انضم إلى مجتمعنا التقني المبتكر
تفاصيل أكثر
المزيد
تستثمر Pantera Capital في TON Blockchain، وتعرب عن ثقتها في قدرة Telegram على توسيع إمكانية الوصول إلى العملات المشفرة
باقة الأعمال تقرير الأخبار تكنولوجيا
تستثمر Pantera Capital في TON Blockchain، وتعرب عن ثقتها في قدرة Telegram على توسيع إمكانية الوصول إلى العملات المشفرة
2 مايو 2024
تجمع شركة Mitosis تمويلًا بقيمة 7 ملايين دولار من Amber Group وForesight Ventures لتطوير بروتوكول السيولة المعياري الخاص بها
باقة الأعمال تقرير الأخبار تكنولوجيا
تجمع شركة Mitosis تمويلًا بقيمة 7 ملايين دولار من Amber Group وForesight Ventures لتطوير بروتوكول السيولة المعياري الخاص بها
2 مايو 2024
تتعاون شركة Galxe مع Jambo لتوسيع إمكانية الوصول العالمية إلى Web3
باقة الأعمال تقرير الأخبار تكنولوجيا
تتعاون شركة Galxe مع Jambo لتوسيع إمكانية الوصول العالمية إلى Web3
2 مايو 2024
Google Med-Gemini يستعد لإعطاء السبق لـ GPT-4 مع أدائها المتفوق في مجال الرعاية الصحية
AI Wiki الأخبار تطبيقات الكمبيوتر تكنولوجيا
Google Med-Gemini يستعد لإعطاء السبق لـ GPT-4 مع أدائها المتفوق في مجال الرعاية الصحية
2 مايو 2024
CRYPTOMERIA LABS PTE. المحدودة.