ERNIE-ViLG 2.0: يتفوق نموذج تحويل النص إلى صورة الجديد من Baidu على Dalle-2 و Stable Diffusion
في سطور
كل من Dalle-2 و Stable Diffusion تم تفوق أداء ERNIE-ViLG 2.0 بشكل ملحوظ
ERNIE-ViLG 2.0 تحديث هو نموذج نص إلى صورة يقدم أداءً أفضل من Dalle-2 و Stable Diffusion، وهما من أشهر نماذج تحويل النص إلى صورة المتاحة حاليًا. تم تصميم النموذج الجديد وتدريبه من قبل فريق من الباحثين من بايدو ، وكانت النتائج مذهلة.
أظهرت النتائج أن ERNIE-ViLG 2.0 تفوق بشكل كبير على أداء Dalle-2 و Stable Diffusion. يعد هذا إنجازًا مهمًا ويظهر قوة إطار عمل ERNIE. ال Metaverse Post قارن الفريق ERNIE-ViLG 2.0 مع Stable Diffusion أدناه:
توفر هذه النتائج دعمًا قويًا للفرضية القائلة بأن ERNIE-ViLG 2.0 أكثر فعالية نظام تحويل النص إلى صورة من Dalle-2 و Stable Diffusion.
هندسة Unet من Stable Diffusion تؤخذ كأساس ، ولكن مع التغييرات:
- مزيج من خبراء تقليل الضوضاء: هناك 10 شبكات عصبية بدلاً من شبكة واحدة ، كل منها مسؤول فقط عن خطوات انتشار معينة.
- المعرفة النصية: أعاد وزن الكلمات الموجودة في الاستعلام تلقائيًا بحيث تزداد أهمية الكلمات الرئيسية.
- المعرفة البصرية: أثناء التدريب ، تم اكتشاف الأجسام في نتائج التوليد الوسيطة ، وزاد وزن وظيفة الخسارة في المناطق التي بها أشياء.
نتيجة لذلك ، أكبر في العالم نموذج نص إلى صورة خرج مع 24 مليار معلمة (10 مرات أكبر من SD) لتدريب النموذج.
تتم ترجمة الموجهات ببساطة من الصينية إلى الإنجليزية تلقائيًا في تعانق الوجه عرض عام قبل إرساله إلى منظمة العفو الدولية. الكثير من الميزات تتدفق من هذا.
- إرني لا يعرف الشخصيات العامة الدولية. على سبيل المثال ، لا يعرف إيرني أرنولد شوارزنيجر. لديها بالتأكيد المفضلة المحلية في الصين.
- ونتيجة لذلك، فإن طريقة استخدام أسماء المشاهير تؤدي إلى تعزيز جودة المحتوى بشكل كبير وجوه فشل.
- يمكنك أن تتوقع بعض التشويه بسبب الترجمة من الصينية ، لذلك قد تكون هناك بعض المفاجآت في المتجر لك إذا كنت لا تتحدث الصينية.
- إنه لا يعرف حتى أي شيء عن جريج روتكوفسكي.
اقرأ المقالات ذات الصلة:
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.
المزيد من المقالاتدامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.