نموذج الذكاء الاصطناعي لتحويل النص إلى صورة
ما هو نموذج الذكاء الاصطناعي لتحويل النص إلى صورة؟
نموذج تحويل النص إلى صورة هو نوع من آلة التعلم نموذج يقوم بإنشاء صورة تتوافق مع وصف اللغة الطبيعية المقدم كمدخل. تتكون نماذج تحويل النص إلى صورة عادةً من مكونين: نموذج صورة توليدي ينشئ صورة مشروطة بالنص المدخل، ونموذج لغة يحول النص إلى تمثيل كامن. تُستخدم عادةً كميات كبيرة من بيانات النصوص والصور التي تم سحبها من الإنترنت لتدريب الخوارزميات الأكثر كفاءة.
فهم نموذج الذكاء الاصطناعي لتحويل النص إلى صورة
أصدر باحثون من جامعة تورنتو برنامج alignDRAW، وهو أول نموذج معاصر لتحويل النص إلى صورة، في عام 2015. وقد تم توسيع بنية DRAW التي تم تقديمها لأول مرة بواسطة alignDRAW لتوفير تكييف تسلسل النص. في حين أن الصور التي تم إنشاؤها بواسطة alignDRAW كانت تفتقر إلى الواقعية وكانت ضبابية، فقد أظهر النموذج أنه قادر على أكثر من مجرد "حفظ" محتويات مجموعة التدريب من خلال القدرة على التعميم على العناصر التي لم يتم تضمينها في مجموعة التدريب والاستجابة بشكل صحيح إشارات جديدة.
• OpenAI كان نظام المحولات DALL-E واحدًا من أولى نماذج تحويل النص إلى صورة التي جذبت اهتمامًا عامًا كبيرًا، وتم الكشف عنه في يناير 2021. وفي أبريل 2022، تم طرح DALL-E 2، وهو بديل يمكن أن ينتج مرئيات أكثر تعقيدًا ونابضة بالحياة، قدم. وفي أغسطس من نفس العام، Stable Diffusion تم توفيره للجمهور. تم إجراء مزيد من التوضيح حول "تخصيص" النماذج الأساسية الضخمة لتحويل النص إلى صورة في أغسطس 2022. مع تخصيص تحويل النص إلى صورة، يمكن تعليم فكرة جديدة للنموذج باستخدام عدد صغير من الصور لعنصر لم يكن موجودًا إنها ليست جزءًا من مجموعة التدريب الخاصة بالنموذج الأساسي لتحويل النص إلى صورة، ويتم تحقيق ذلك عن طريق الانعكاس النصي.
مقالات ذات صلة: أفضل 100+ Stable Diffusion الموجهات: أجمل موجهات تحويل النص إلى صورة بالذكاء الاصطناعي |
مستقبل نموذج الذكاء الاصطناعي لتحويل النص إلى صورة
يزدهر المجتمع الإبداعي بفن الذكاء الاصطناعي، مما يدفعنا إلى مناطق غير مستكشفة فكريًا وفنيًا. على الرغم من أن جوانبها الإبداعية لا تزال قيد الاستكشاف، إلا أنها بدأت بالفعل في تغيير بيئة الصور الفنية. إن الصور البشرية الذكية التي تتجاوز أي شيء رأيناه على الشاشة هي موضع ترحيب بالفعل في أذهاننا. أحد التطورات الأكثر إثارة للاهتمام هو إنشاء تحويل النص إلى صورة، والذي يمكّن أجهزة الكمبيوتر من إنتاج صور استجابة للأوامر النصية. يستخدم الفنانون الذكاء الاصطناعي لتوسيع مخيلتهم بشكل يومي. تكمن اهتماماتهم أكثر في استكشاف التكنولوجيا لإنشاء مدن خيالية، أو مشاهدة الكلاب وهي ترقص في الديسكو، أو محاولة اكتشاف ما يخبئه المستقبل.
آخر الأخبار حول نموذج الذكاء الاصطناعي لتحويل النص إلى صورة
- Midjourney و5.2 Stable Diffusion أصدر SDXL 0.9 تحديثات مهمة لإنشاء الصور الإبداعية. Midjourney يقدم الإصدار 5.2 ميزة التصغير، والتنوعات القابلة للتخصيص، وتحويل الصورة بنسبة 1:1. كما أنه يقدم أيضًا Outpainting، وتنوعات قابلة للتخصيص، ومحلل سريع لتحسين المطالبات ومواءمتها مع نوايا المستخدمين. تعمل هذه التحديثات على تحسين تجربة المستخدم وتحسين الدقة في إنشاء صور واقعية.
- SnapFusion هو نموذج للذكاء الاصطناعي يتيح للمستخدمين إنشاء صور مذهلة من أوصاف اللغة الطبيعية في ثانيتين فقط على الأجهزة المحمولة. فهو يلغي الحاجة إلى وحدات معالجة الرسومات باهظة الثمن والخدمات المستندة إلى السحابة، مما يقلل التكاليف ويعالج مخاوف الخصوصية. تم إثبات كفاءة النموذج وأدائه في التجارب التي أجريت على مجموعة بيانات MS-COCO.
- قام الباحثون بتطوير GigaGAN، وهو نموذج لتحويل النص إلى صورة يمكنه إنشاء صور بدقة 4K في 3.66 ثانية، وهو تحسن كبير مقارنة بالنماذج الحالية. تعتمد GigaGAN على إطار عمل GAN وتم تدريبها على مجموعة بيانات مكونة من مليار صورة، مما يؤدي إلى إنشاء صور بحجم 1 بكسل في 512 ثانية. إنه يحتوي على مساحة كامنة منفصلة ومستمرة ويمكن التحكم فيها، مما يسمح بأنماط مختلفة والتحكم في الصورة. يمكن للنموذج أيضًا تدريب أداة رفع العينات الفعالة للحصول على صور أو مخرجات حقيقية.
أحدث المشاركات الاجتماعية حول
«رجوع إلى فهرس المصطلحاتإخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
فيكتوريا كاتبة في مجموعة متنوعة من موضوعات التكنولوجيا بما في ذلك Web3.0 والذكاء الاصطناعي والعملات المشفرة. خبرتها الواسعة تسمح لها بكتابة مقالات ثاقبة لجمهور أوسع.
المزيد من المقالاتفيكتوريا كاتبة في مجموعة متنوعة من موضوعات التكنولوجيا بما في ذلك Web3.0 والذكاء الاصطناعي والعملات المشفرة. خبرتها الواسعة تسمح لها بكتابة مقالات ثاقبة لجمهور أوسع.