يمكن لنموذج GigaGAN الجديد لتحويل النص إلى صورة إنشاء صور بدقة 4K في 3.66 ثانية
في سطور
طور الباحثون نموذجًا جديدًا لتحويل النص إلى صورة يسمى GigaGAN يمكنه إنشاء صور بدقة 4K في 3.66 ثانية.
يعتمد على إطار GAN (شبكة الخصومة التوليدية) ، وهو نوع من الشبكة العصبية يمكنه تعلم إنشاء بيانات مشابهة لمجموعة بيانات التدريب. GigaGAN قادرة على إنشاء صور بحجم 512 بكسل في 0.13 ثانية ، أسرع 10 مرات من النموذج السابق الحديث ، ولديها مساحة كامنة غير متشابكة ومستمرة ويمكن التحكم فيها.
يمكن استخدامه أيضًا لتدريب مكثف فعّال وعالي الجودة.
طور الباحثون نموذجًا جديدًا لتحويل النص إلى صورة يسمى جيجان التي يمكن أن تولد الصور شنومك في 3.66 ثانية. يعد هذا تحسينًا كبيرًا مقارنة بنماذج تحويل النص إلى صورة الحالية ، والتي يمكن أن تستغرق دقائق أو حتى ساعات لإنشاء صورة واحدة.
يعتمد GigaGAN على إطار عمل GAN (شبكة الخصومة التوليدية) ، وهو نوع من الشبكات العصبية التي يمكنها تعلم إنشاء بيانات مشابهة لمجموعة بيانات التدريب. تم استخدام شبكات GAN لإنشاء صور واقعية للوجوه والمناظر الطبيعية وحتى صور التجوّل الافتراضي.
تم تدريب النموذج الجديد على مجموعة بيانات من مليار صورة ، وهي أوامر أكبر من مجموعات البيانات المستخدمة لتدريب نماذج تحويل النص إلى صورة سابقة. ونتيجة لذلك ، فإن GigaGAN قادرة على إنشاء صور بحجم 1 بكسل في 512 ثانية ، وهو أسرع بعشر مرات من النموذج السابق لتحويل النص إلى صورة.
بالإضافة إلى ذلك ، تأتي GigaGAN مع مساحة كامنة منفصلة ومستمرة ويمكن التحكم فيها. هذا يعني أنه يمكن لـ GigaGAN إنشاء صور لها أنماط مختلفة ، ويمكن التحكم في الصور التي تم إنشاؤها إلى حد ما. على سبيل المثال ، يمكن لـ GigaGAN إنشاء صور تحافظ على تخطيط إدخال النص ، وهو أمر مهم للتطبيقات ، على سبيل المثال ، عند إنشاء صور لتخطيطات المنتج من أوصاف النص.
يمكن أيضًا استخدام GigaGAN لتدريب جهاز تجميع عينات فعال وعالي الجودة. يمكن تطبيق هذا على الصور الحقيقية أو على مخرجات أخرى نماذج النص إلى الصورة.
يعد فرع ترميز النص وشبكة تعيين الأنماط وشبكة التوليف متعددة المقاييس والاهتمام المستقر واختيار النواة القابلة للتكيف جزءًا من منشئ GigaGAN. يبدأ المطورون فرع تشفير النص عن طريق استخراج عمليات دمج النص باستخدام نموذج CLIP مدرب مسبقًا وطبقات الانتباه المستفادة T. ستايل، يتم تمرير التضمين إلى شبكة تعيين النمط M ، والتي تولد متجه النمط w. لإنشاء هرم صورة ، تستخدم شبكة التركيب الآن رمز النمط كتعديل وتضمينات النص كاهتمام. علاوة على ذلك ، يقدم المطورون اختيار النواة المتكيف للعينة لتحديد نواة الالتفاف بشكل تكيفي بناءً على تكييف إدخال النص.
المميّز ، مثل المولد ، له فرعين لمعالجة الصورة وتكييف النص. فرع النص ، مثل المولد ، يعالج النص. يُعطى فرع الصورة هرمًا للصورة ويتم تكليفه بعمل تنبؤات مستقلة لكل مقياس صورة. علاوة على ذلك ، يتم إجراء التنبؤات في جميع مقاييس طبقة الاختزال اللاحقة. كما تستخدم خسائر إضافية لتشجيع التقارب الفعال.
كما هو موضح في شبكة الاستيفاء ، يسمح GigaGAN بالاستيفاء السلس بين المطالبات. يتم إنشاء الزوايا الأربع باستخدام نفس z الكامنة ولكن مطالبات نصية مختلفة.
نظرًا لأن GigaGAN تحافظ على مساحة كامنة غير متشابكة ، يمكن للمطورين الجمع بين النمط الخشن لعينة ما والأسلوب الرائع لعينة أخرى. يمكن لـ GigaGAN أيضًا التحكم في النمط مباشرة من خلال الرسائل النصية.
اقرأ المزيد من المقالات ذات الصلة:
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.
المزيد من المقالاتدامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.