قدمت Sber AI برنامج Kandinsky 2.0 ، وهو أول نموذج لتحويل النص إلى صورة يتم إنشاؤه بأكثر من 100 لغة
في سطور
تم إنشاء Kandinsky 2.0 ، أول نموذج نشر متعدد اللغات ، وتدريبه بواسطة باحثين في Sber AI بمساعدة باحثين من معهد الذكاء الاصطناعي AI باستخدام مجموعة بيانات مجمعة من 1 مليار زوج من الصور النصية من Sber AI و SberDevices
يحل الانتشار بشكل متزايد محل شبكات GAN ونماذج الانحدار الذاتي في عدد من مهام معالجة الصور الرقمية. هذا ليس مفاجئًا لأن الانتشار أسهل في التعلم ، ولا يتطلب مجموعة معقدة من المعلمات الفائقة ، وتحسين min-max ، ولا يعاني من عدم استقرار التعلم. والأهم من ذلك ، تُظهر نماذج الانتشار أحدث النتائج في جميع المهام التوليدية تقريبًا - إنشاء الصور بالنص وتوليد الصوت والفيديو وحتى 3D.
لسوء الحظ ، فإن معظم العمل في مجال تحويل النص إلى شيء يركز فقط على اللغة الإنجليزية والصينية. لتصحيح هذا الظلم ، Sber AI قررت أن تخلق نموذج نشر نص إلى صورة متعدد اللغات Kandinsky 2.0 ، والذي يفهم الاستعلامات في أكثر من 100 لغة. تعانق الوجه يقدم بالفعل Kandinsky 2.0. الباحثون من SberAI و SberDevices لديهم تعاونت مع خبراء من معهد الذكاء الاصطناعي للذكاء الاصطناعي في هذا المشروع.
ما هو الانتشار؟
في مقال 2015 التعلم العميق غير الخاضع للإشراف باستخدام الديناميكا الحرارية بلا توازن، تم وصف نماذج الانتشار أولاً بأنها فعل خلط مادة ينتج عنها انتشار ، مما يعادل التوزيع. كما يوحي عنوان المقال ، فقد اقتربوا من شرح نماذج الانتشار من خلال إطار الديناميكا الحرارية.
في حالة الصور ، قد تشبه هذه العملية ، على سبيل المثال ، إزالة ضوضاء Gaussian تدريجياً من الصورة.
نماذج الانتشار الورقي فاز كانت GANs on Image Synthesis ، التي نُشرت في عام 2021 ، أول من أظهر تفوق نماذج الانتشار على GANS. ابتكر المؤلفون أيضًا نهج التحكم من الجيل الأول (التكييف) ، والذي أطلقوا عليه اسم إرشادات المصنف. تنشئ هذه الطريقة كائنات تناسب الفئة المقصودة باستخدام تدرجات من مصنف مختلف (على سبيل المثال ، الكلاب). من خلال آلية معايير المجموعة التكيفية ، والتي تتضمن التنبؤ بمعاملات التطبيع ، يتم تنفيذ التحكم نفسه.
يمكن اعتبار هذه المقالة نقطة تحول في مجال الذكاء الاصطناعي التوليدي ، مما دفع الكثيرين إلى اللجوء إلى دراسة الانتشار. مقالات جديدة حول نص إلى فيديو, نص إلى ثلاثي الأبعاد، صورة com.inpainting, توليد الصوت، نشر ل دقة فائقة، وحتى جيل الحركة بدأ في الظهور كل بضعة أسابيع.
نشر النص إلى الصورة
كما ذكرنا سابقًا ، يعد الحد من الضوضاء والقضاء على التشويش عادةً المكونات الرئيسية لعمليات الانتشار في سياق طرائق الصورة ، لذلك غالبًا ما تستخدم UNet وتنوعاتها العديدة باعتبارها البنية الأساسية.
من الضروري أن يؤخذ هذا النص في الاعتبار بطريقة ما خلال الجيل من أجل تكوين صورة مبنية عليه. مؤلفو OpenAI مقالة عن نموذج GLIDE اقترحت تعديل نهج التوجيه الخالي من المصنف للنص.
أدى استخدام مشفرات النص المجمدة المُعالجة مسبقًا للإشعاع وآلية تعزيز الدقة المتتالية في المستقبل إلى تحسين إنتاج النص بشكل كبير (صورة). اتضح أنه ليست هناك حاجة لتدريب جزء النص من نماذج النص إلى الصورة حيث أدى استخدام T5-xxl المجمد إلى تحسين جودة الصورة وفهم النص بشكل كبير واستخدام موارد تدريب أقل بكثير.
مؤلفو أ الانتشار الكامن أوضح المقال أن مكون الصورة في الواقع لا يتطلب تدريبًا (على الأقل ليس تمامًا). سيستمر التعلم بسرعة أكبر إذا استخدمنا أداة تشفير تلقائية قوية للصور (VQ-VAE أو KL-VAE) كوحدة فك ترميز مرئية وحاولنا إنشاء عمليات دمج من مساحتها الكامنة عن طريق الانتشار بدلاً من الصورة نفسها. هذه المنهجية هي أيضًا أساس الإصدار الأخير Stable Diffusion نموذج.
نموذج Kandinsky 2.0 AI
مع بعض التحسينات الرئيسية ، يعتمد Kandinsky 2.0 على تقنية Latent Diffusion المحسّنة (لا نصنع صورًا ، بل نواقلها الكامنة):
- توظيف جهازي تشفير نصيين متعددي اللغات وسلسلة حفلات الزفاف الخاصة بهم.
- تمت إضافة UNet (1.2 مليار معلمة).
- إجراء أخذ العينات عتبة ديناميكية.
استخدم الباحثون مشفرين متعددي اللغات في وقت واحد - مقطع XLMR و mT5 - صغير - من أجل جعل نموذج متعدد اللغات حقا. لذلك ، بالإضافة إلى اللغة الإنجليزية والروسية والفرنسية والألمانية ، يمكن للنموذج أيضًا فهم لغات مثل المنغولية والعبرية والفارسية. يعرف الذكاء الاصطناعي ما مجموعه 101 لغة. لماذا تقرر ترميز النص باستخدام نموذجين في وقت واحد؟ نظرًا لأن مقطع XLMR قد شاهد صورًا ويوفر حفلات زفاف قريبة للغات مختلفة ، وأن mT5-small قادر على فهم النصوص المعقدة ، فإن هذه النماذج لها ميزات مختلفة ولكنها مهمة. نظرًا لأن كلا النموذجين لا يحتويان إلا على عدد صغير من المعلمات (560 م و 146 م) ، كما هو موضح في اختباراتنا الأولية ، فقد تقرر استخدام مشفرين في وقت واحد.
الصور التي تم إنشاؤها حديثًا بواسطة نموذج Kandinsky 2.0 AI أدناه:
كيف تم تدريب نموذج Kandinsky 2.0؟
تم استخدام أجهزة الكمبيوتر العملاقة Christofari للتدريب على منصة ML Space. تطلبت 196 بطاقة NVIDIA A100 ، كل منها به 80 جيجابايت من ذاكرة الوصول العشوائي. استغرق الأمر 14 يومًا ، أو 65,856 ساعة GPU ، لإكمال التدريب. استغرق التحليل خمسة أيام بدقة 256 × 256 ، تليها ستة أيام بدقة 512 × 512 ، ثم ثلاثة أيام إضافية في أنقى البيانات.
كبيانات تدريبية ، تم دمج العديد من مجموعات البيانات التي تمت تصفيتها مسبقًا للعلامات المائية ، والدقة المنخفضة ، والالتزام المنخفض بالوصف النصي كما تم قياسه بواسطة مقياس درجة CLIP.
جيل متعدد اللغات
Kandinsky 2.0 هو أول نموذج متعدد اللغات لإنشاء صور من الكلمات ، مما يمنحنا الفرصة الأولى لتقييم التغييرات اللغوية والبصرية عبر ثقافات اللغة. يتم عرض نتائج ترجمة نفس الاستعلام إلى عدة لغات أدناه. على سبيل المثال ، يظهر الرجال البيض فقط في نتائج الجيل للاستعلام الروسي "شخص حاصل على تعليم عالٍ" ، في حين أن نتائج الترجمة الفرنسية ، "Photo d'une personne Diplômée de l'enseignement supérieur" أكثر تنوعًا. أود أن أشير إلى أن الأشخاص الحزينين الحاصلين على تعليم عال موجودون فقط في النسخة باللغة الروسية.
على الرغم من أنه لا يزال هناك الكثير من التجارب مع نماذج لغوية ضخمة وطرق مختلفة لعملية الانتشار المخطط لها ، يمكننا بالفعل القول بثقة أن Kandinsky 2.0 هو أول نموذج نشر متعدد اللغات تمامًا! على ال موقع FusionBrain و جوجل كولاب، قد ترى أمثلة لرسوماتها.
اقرأ المزيد عن الذكاء الاصطناعي:
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.
المزيد من المقالاتدامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.