GLIGEN: نموذج إنشاء نص إلى صورة مجمّد جديد مع مربع إحاطة
في سطور
GLIGEN ، أو إنشاء لغة إلى صورة ، هي تقنية جديدة تعتمد على قدرات نماذج الانتشار الحالية المدربة مسبقًا وتوسعها.
من خلال مدخلات حالة الصندوق المحيط والتعليق ، يُنشئ نموذج GLIGEN نصًا مؤرضًا للعالم المفتوح 2img.
يمكن لـ GLIGEN إنشاء مجموعة متنوعة من الكائنات في أماكن وأنماط محددة من خلال الاستفادة من المعرفة من نموذج text2img الذي تم اختباره مسبقًا.
قد يؤسس GLIGEN أيضًا نقاطًا رئيسية بشرية أثناء إنشاء تحويل النص إلى صور.
لقد قطعت نماذج نشر النص إلى صورة واسعة النطاق شوطا طويلا. ومع ذلك ، فإن الممارسة الحالية هي الاعتماد فقط على إدخال النص ، مما قد يحد من إمكانية التحكم. جلين، أو Grounded-Language-to-Image Generation ، هي تقنية جديدة تعتمد على وتوسع قدرة نماذج نشر النص إلى الصورة الحالية المدربة مسبقًا من خلال السماح لها بأن تكون مشروطة بمدخلات التأريض.
للحفاظ على المعرفة الواسعة بمفهوم النموذج المدربين مسبقًا ، يقوم المطورون بتجميد جميع أوزانه وضخ معلومات التأريض في طبقات جديدة قابلة للتدريب عبر عملية محكومة. من خلال مدخلات حالة الصندوق المحيط والتعليق ، يولد نموذج GLIGEN نصًا إلى صورة مؤرضًا للعالم المفتوح ، وتعمم قدرة التأريض بشكل فعال على التكوينات والمفاهيم المكانية الجديدة.
افحص عرض هنا.
- يعتمد GLIGEN على التدريب المسبق الموجود نماذج الانتشار، الأوزان الأصلية التي تم تجميدها للاحتفاظ بكميات هائلة من المعرفة المدربة مسبقًا.
- في كل كتلة محولات ، يتم إنشاء طبقة الانتباه الذاتي بوابات جديدة قابلة للتدريب لامتصاص مدخلات التأريض الإضافية.
- يحتوي كل رمز تأريض على نوعين من المعلومات: معلومات دلالية حول الشيء المؤرض (نص أو صورة مشفرة) ومعلومات الموقع المكاني (المربع المحيط المشفر أو النقاط الرئيسية).
اقرأ المزيد عن الذكاء الاصطناعي:
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.
المزيد من المقالاتدامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.