تقرير الأخبار
20 آذار، 2023

يمكن لنموذج GigaGAN الجديد لتحويل النص إلى صورة إنشاء صور بدقة 4K في 3.66 ثانية

في سطور

طور الباحثون نموذجًا جديدًا لتحويل النص إلى صورة يسمى GigaGAN يمكنه إنشاء صور بدقة 4K في 3.66 ثانية.

يعتمد على إطار GAN (شبكة الخصومة التوليدية) ، وهو نوع من الشبكة العصبية يمكنه تعلم إنشاء بيانات مشابهة لمجموعة بيانات التدريب. GigaGAN قادرة على إنشاء صور بحجم 512 بكسل في 0.13 ثانية ، أسرع 10 مرات من النموذج السابق الحديث ، ولديها مساحة كامنة غير متشابكة ومستمرة ويمكن التحكم فيها.

يمكن استخدامه أيضًا لتدريب مكثف فعّال وعالي الجودة.

طور الباحثون نموذجًا جديدًا لتحويل النص إلى صورة يسمى جيجان التي يمكن أن تولد الصور شنومك في 3.66 ثانية. يعد هذا تحسينًا كبيرًا مقارنة بنماذج تحويل النص إلى صورة الحالية ، والتي يمكن أن تستغرق دقائق أو حتى ساعات لإنشاء صورة واحدة.

يمكن لنموذج GigaGAN الجديد لتحويل النص إلى صورة إنشاء صور بدقة 4K عند 3.66 ثانية

يعتمد GigaGAN على إطار عمل GAN (شبكة الخصومة التوليدية) ، وهو نوع من الشبكات العصبية التي يمكنها تعلم إنشاء بيانات مشابهة لمجموعة بيانات التدريب. تم استخدام شبكات GAN لإنشاء صور واقعية للوجوه والمناظر الطبيعية وحتى صور التجوّل الافتراضي.

اقرأ أكثر: 5+ نماذج الذكاء الاصطناعي الأكثر توقعًا لتحويل النص إلى صورة لعام 2023

تم تدريب النموذج الجديد على مجموعة بيانات من مليار صورة ، وهي أوامر أكبر من مجموعات البيانات المستخدمة لتدريب نماذج تحويل النص إلى صورة سابقة. ونتيجة لذلك ، فإن GigaGAN قادرة على إنشاء صور بحجم 1 بكسل في 512 ثانية ، وهو أسرع بعشر مرات من النموذج السابق لتحويل النص إلى صورة.

بالإضافة إلى ذلك ، تأتي GigaGAN مع مساحة كامنة منفصلة ومستمرة ويمكن التحكم فيها. هذا يعني أنه يمكن لـ GigaGAN إنشاء صور لها أنماط مختلفة ، ويمكن التحكم في الصور التي تم إنشاؤها إلى حد ما. على سبيل المثال ، يمكن لـ GigaGAN إنشاء صور تحافظ على تخطيط إدخال النص ، وهو أمر مهم للتطبيقات ، على سبيل المثال ، عند إنشاء صور لتخطيطات المنتج من أوصاف النص.

يمكن أيضًا استخدام GigaGAN لتدريب جهاز تجميع عينات فعال وعالي الجودة. يمكن تطبيق هذا على الصور الحقيقية أو على مخرجات أخرى نماذج النص إلى الصورة.

يعد فرع ترميز النص وشبكة تعيين الأنماط وشبكة التوليف متعددة المقاييس والاهتمام المستقر واختيار النواة القابلة للتكيف جزءًا من منشئ GigaGAN. يبدأ المطورون فرع تشفير النص عن طريق استخراج عمليات دمج النص باستخدام نموذج CLIP مدرب مسبقًا وطبقات الانتباه المستفادة T. ستايل، يتم تمرير التضمين إلى شبكة تعيين النمط M ، والتي تولد متجه النمط w. لإنشاء هرم صورة ، تستخدم شبكة التركيب الآن رمز النمط كتعديل وتضمينات النص كاهتمام. علاوة على ذلك ، يقدم المطورون اختيار النواة المتكيف للعينة لتحديد نواة الالتفاف بشكل تكيفي بناءً على تكييف إدخال النص.

المميّز ، مثل المولد ، له فرعين لمعالجة الصورة وتكييف النص. فرع النص ، مثل المولد ، يعالج النص. يُعطى فرع الصورة هرمًا للصورة ويتم تكليفه بعمل تنبؤات مستقلة لكل مقياس صورة. علاوة على ذلك ، يتم إجراء التنبؤات في جميع مقاييس طبقة الاختزال اللاحقة. كما تستخدم خسائر إضافية لتشجيع التقارب الفعال.

كما هو موضح في شبكة الاستيفاء ، يسمح GigaGAN بالاستيفاء السلس بين المطالبات. يتم إنشاء الزوايا الأربع باستخدام نفس z الكامنة ولكن مطالبات نصية مختلفة.

نظرًا لأن GigaGAN تحافظ على مساحة كامنة غير متشابكة ، يمكن للمطورين الجمع بين النمط الخشن لعينة ما والأسلوب الرائع لعينة أخرى. يمكن لـ GigaGAN أيضًا التحكم في النمط مباشرة من خلال الرسائل النصية.

اقرأ المزيد من المقالات ذات الصلة:

إخلاء المسئولية

تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.

نبذة عن الكاتب

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

المزيد من المقالات
دامير يالالوف
دامير يالالوف

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

Hot Stories
اشترك في صحيفتنا الإخبارية.
آخـر الأخبار

وصول يوم النطق بالحكم: مصير تشيكوسلوفاكيا معلق في الميزان بينما تنظر المحكمة الأمريكية في التماس وزارة العدل

ومن المقرر أن يواجه Changpeng Zhao الحكم في محكمة أمريكية في سياتل اليوم.

أعرف المزيد

مؤسسو Samourai Wallet متهمون بتسهيل صفقات بقيمة 2 مليار دولار في Darknet

يمثل إلقاء القبض على مؤسسي Samourai Wallet انتكاسة ملحوظة لهذه الصناعة، مما يؤكد استمرار ...

أعرف المزيد
انضم إلى مجتمعنا التقني المبتكر
تفاصيل أكثر
المزيد
تستثمر Pantera Capital في TON Blockchain، وتعرب عن ثقتها في قدرة Telegram على توسيع إمكانية الوصول إلى العملات المشفرة
باقة الأعمال تقرير الأخبار تكنولوجيا
تستثمر Pantera Capital في TON Blockchain، وتعرب عن ثقتها في قدرة Telegram على توسيع إمكانية الوصول إلى العملات المشفرة
2 مايو 2024
تجمع شركة Mitosis تمويلًا بقيمة 7 ملايين دولار من Amber Group وForesight Ventures لتطوير بروتوكول السيولة المعياري الخاص بها
باقة الأعمال تقرير الأخبار تكنولوجيا
تجمع شركة Mitosis تمويلًا بقيمة 7 ملايين دولار من Amber Group وForesight Ventures لتطوير بروتوكول السيولة المعياري الخاص بها
2 مايو 2024
تتعاون شركة Galxe مع Jambo لتوسيع إمكانية الوصول العالمية إلى Web3
باقة الأعمال تقرير الأخبار تكنولوجيا
تتعاون شركة Galxe مع Jambo لتوسيع إمكانية الوصول العالمية إلى Web3
2 مايو 2024
عضو المجلس التشريعي في هونغ كونغ، وو جيتشوانغ، يرفع دعوى مدنية ضد بورصة العملات المشفرة JPEX
باقة الأعمال تقرير الأخبار تكنولوجيا
عضو المجلس التشريعي في هونغ كونغ، وو جيتشوانغ، يرفع دعوى مدنية ضد بورصة العملات المشفرة JPEX
2 مايو 2024
CRYPTOMERIA LABS PTE. المحدودة.