تقرير الأخبار تكنولوجيا
٣ فبراير ٢٠٢٤

GLIGEN: نموذج إنشاء نص إلى صورة مجمّد جديد مع مربع إحاطة

في سطور

GLIGEN ، أو إنشاء لغة إلى صورة ، هي تقنية جديدة تعتمد على قدرات نماذج الانتشار الحالية المدربة مسبقًا وتوسعها.

من خلال مدخلات حالة الصندوق المحيط والتعليق ، يُنشئ نموذج GLIGEN نصًا مؤرضًا للعالم المفتوح 2img.

يمكن لـ GLIGEN إنشاء مجموعة متنوعة من الكائنات في أماكن وأنماط محددة من خلال الاستفادة من المعرفة من نموذج text2img الذي تم اختباره مسبقًا.

قد يؤسس GLIGEN أيضًا نقاطًا رئيسية بشرية أثناء إنشاء تحويل النص إلى صور.

لقد قطعت نماذج نشر النص إلى صورة واسعة النطاق شوطا طويلا. ومع ذلك ، فإن الممارسة الحالية هي الاعتماد فقط على إدخال النص ، مما قد يحد من إمكانية التحكم. جلين، أو Grounded-Language-to-Image Generation ، هي تقنية جديدة تعتمد على وتوسع قدرة نماذج نشر النص إلى الصورة الحالية المدربة مسبقًا من خلال السماح لها بأن تكون مشروطة بمدخلات التأريض.

GLIGEN: نموذج إنشاء نص إلى صورة مجمّد جديد مع مربع إحاطة

للحفاظ على المعرفة الواسعة بمفهوم النموذج المدربين مسبقًا ، يقوم المطورون بتجميد جميع أوزانه وضخ معلومات التأريض في طبقات جديدة قابلة للتدريب عبر عملية محكومة. من خلال مدخلات حالة الصندوق المحيط والتعليق ، يولد نموذج GLIGEN نصًا إلى صورة مؤرضًا للعالم المفتوح ، وتعمم قدرة التأريض بشكل فعال على التكوينات والمفاهيم المكانية الجديدة.

افحص عرض هنا.

يعتمد GLIGEN على نماذج الانتشار سابقة التحديد ، والتي تم تجميد أوزانها الأصلية للاحتفاظ بكميات هائلة من المعرفة المدربة مسبقًا.
  • يعتمد GLIGEN على التدريب المسبق الموجود نماذج الانتشار، الأوزان الأصلية التي تم تجميدها للاحتفاظ بكميات هائلة من المعرفة المدربة مسبقًا.
  • في كل كتلة محولات ، يتم إنشاء طبقة الانتباه الذاتي بوابات جديدة قابلة للتدريب لامتصاص مدخلات التأريض الإضافية.
  • يحتوي كل رمز تأريض على نوعين من المعلومات: معلومات دلالية حول الشيء المؤرض (نص أو صورة مشفرة) ومعلومات الموقع المكاني (المربع المحيط المشفر أو النقاط الرئيسية).
مقالة ذات صلة: VToonify: نموذج AI في الوقت الفعلي لإنشاء مقاطع فيديو فنية للصور الشخصية
يتم تدريب الطبقات المعدلة المضافة حديثًا مسبقًا بشكل مستمر على بيانات التأريض الضخمة (مربع نص الصورة) ، وهي أكثر فعالية من حيث التكلفة من الطرق البديلة لاستخدام نموذج الانتشار المحجوز مسبقًا ، مثل ضبط النموذج الكامل. على غرار Lego ، يمكن توصيل الطبقات المدربة المختلفة وإخراجها للسماح بالعديد من الإمكانات الجديدة.
يتم تدريب الطبقات المعدلة المضافة حديثًا مسبقًا بشكل مستمر على بيانات التأريض الضخمة (مربع نص الصورة). يعد هذا أكثر فعالية من حيث التكلفة من الطرق البديلة لاستخدام المدربين مسبقًا نموذج الانتشار، مثل ضبط النموذج الكامل. كما هو الحال مع Lego، يمكن توصيل طبقات مختلفة مدربة وإخراجها للسماح بإمكانات جديدة متنوعة.
يدعم GLIGEN أخذ العينات المجدولة في عملية الانتشار للاستدلال ، حيث يمكن للنموذج أن يختار ديناميكيًا استخدام الرموز المميزة للتأريض (عن طريق إضافة الطبقة الجديدة) أو نموذج الانتشار الأصلي مسبقًا جيدًا (عن طريق طرح الطبقة الجديدة) ، وبالتالي تحقيق التوازن بين جودة التوليد والقدرة على التأريض.
يدعم GLIGEN أخذ العينات المجدولة في عملية الانتشار للاستدلال ، حيث يمكن للنموذج أن يختار ديناميكيًا استخدام الرموز المميزة للتأريض (عن طريق إضافة الطبقة الجديدة) أو نموذج الانتشار الأصلي مسبقًا جيدًا (عن طريق طرح الطبقة الجديدة) ، وبالتالي تحقيق التوازن بين جودة التوليد والقدرة على التأريض.
يمكن لـ GLIGEN إنشاء مجموعة متنوعة من الكائنات في أماكن وأنماط محددة من خلال الاستفادة من المعرفة من نموذج text2img الذي تم اختباره مسبقًا.
يمكن لـ GLIGEN إنشاء مجموعة متنوعة من الكائنات في أماكن وأنماط محددة من خلال الاستفادة من المعرفة من نموذج text2img الذي تم اختباره مسبقًا.
مقالة ذات صلة: أصدرت Microsoft نموذج نشر يمكنه إنشاء أفاتار ثلاثي الأبعاد من صورة واحدة لشخص
يمكن أيضًا تدريب GLIGEN باستخدام صور مرجعية.
يمكن أيضًا تدريب GLIGEN باستخدام صور مرجعية. يشير الصف العلوي إلى أن الصور المرجعية ، بالإضافة إلى الأوصاف المكتوبة ، يمكن أن توفر المزيد من الخصائص الدقيقة مثل أسلوب وشكل السيارة. يوضح الصف الثاني أنه يمكن أيضًا استخدام الصورة المرجعية كصورة نمطية ، وفي هذه الحالة نكتشف أن وضعها في زاوية أو حافة الصورة كافٍ.
يمكن لـ GLIGEN ، مثل نماذج الانتشار الأخرى ، إجراء رسم مؤرض للصورة ، والذي يمكن أن يولد كائنات تتطابق بشكل وثيق مع الصناديق المحيطة المتوفرة.
يمكن لـ GLIGEN ، مثل نماذج الانتشار الأخرى ، إجراء رسم مؤرض للصورة ، والذي يمكن أن يولد كائنات تتطابق بشكل وثيق مع الصناديق المحيطة المتوفرة.
قد يؤسس GLIGEN أيضًا نقاطًا رئيسية بشرية أثناء إنشاء تحويل النص إلى صور.
قد يؤسس GLIGEN أيضًا نقاطًا أساسية بشرية أثناء توليد نص إلى صور.

اقرأ المزيد عن الذكاء الاصطناعي:

إخلاء المسئولية

تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.

نبذة عن الكاتب

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

المزيد من المقالات
دامير يالالوف
دامير يالالوف

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

Hot Stories

Injective تتعاون مع AltLayer لجلب الأمن إلى inEVM

by أليسا ديفيدسون
03 مايو 2024
اشترك في صحيفتنا الإخبارية.
آخـر الأخبار

Injective تتعاون مع AltLayer لجلب الأمن إلى inEVM

by أليسا ديفيدسون
03 مايو 2024

تنمو الشهية المؤسسية تجاه صناديق الاستثمار المتداولة في البيتكوين وسط التقلبات

تكشف الإفصاحات من خلال ملفات 13F عن مستثمرين مؤسسيين بارزين يشتغلون بصناديق الاستثمار المتداولة في البيتكوين، مما يؤكد القبول المتزايد لـ ...

أعرف المزيد

وصول يوم النطق بالحكم: مصير تشيكوسلوفاكيا معلق في الميزان بينما تنظر المحكمة الأمريكية في التماس وزارة العدل

ومن المقرر أن يواجه Changpeng Zhao الحكم في محكمة أمريكية في سياتل اليوم.

أعرف المزيد
انضم إلى مجتمعنا التقني المبتكر
تفاصيل أكثر
المزيد
Injective تتعاون مع AltLayer لجلب الأمن إلى inEVM
باقة الأعمال تقرير الأخبار تكنولوجيا
Injective تتعاون مع AltLayer لجلب الأمن إلى inEVM
3 مايو 2024
تتعاون Masa مع Teller لتقديم مجمع إقراض MASA، مما يتيح اقتراض USDC على القاعدة
الأسواق تقرير الأخبار تكنولوجيا
تتعاون Masa مع Teller لتقديم مجمع إقراض MASA، مما يتيح اقتراض USDC على القاعدة
3 مايو 2024
تطلق Velodrome الإصدار التجريبي من Superchain في الأسابيع القادمة وتتوسع عبر OP Stack Layer 2 Blockchains
الأسواق تقرير الأخبار تكنولوجيا
تطلق Velodrome الإصدار التجريبي من Superchain في الأسابيع القادمة وتتوسع عبر OP Stack Layer 2 Blockchains
3 مايو 2024
تعلن CARV عن شراكة مع Aethir لتحقيق اللامركزية في طبقة البيانات الخاصة بها وتوزيع المكافآت
باقة الأعمال تقرير الأخبار تكنولوجيا
تعلن CARV عن شراكة مع Aethir لتحقيق اللامركزية في طبقة البيانات الخاصة بها وتوزيع المكافآت
3 مايو 2024
CRYPTOMERIA LABS PTE. المحدودة.