نموذج Würstchen V2 يفوز Stable Diffusion XL بسرعة مذهلة لإنتاج صور عالية الدقة
تغريدة حديثة بقلم مؤلف مقال بعنوان "Würstchen" (تعني "السجق" باللغة الألمانية) استحوذ على انتباه المتحمسين والخبراء على حد سواء. شاركت التغريدة النتائج المثيرة للاهتمام لتوليد الصور باستخدام نموذج Würstchen V2 الجديد.
Würstchen سريع وفعال، ويولد صورًا أسرع من النماذج المشابهة Stable Diffusion XL أثناء استخدام ذاكرة أقل. كما أنها خفضت تكاليف التدريب، حيث يتطلب Würstchen v1 فقط 9,000 ساعة من التدريب على وحدة معالجة الرسومات بدقة 512 × 512، مقارنة بـ 150,000 ساعة من وحدة معالجة الرسومات التي تم إنفاقها على Stable Diffusion 1.4. إن هذا التخفيض بمقدار 16 ضعفًا في التكلفة لا يفيد الباحثين الذين يجرون تجارب جديدة فحسب، بل يفتح الباب أيضًا أمام المزيد من المؤسسات لتدريب مثل هذه النماذج. استخدم Würstchen v2 24,602 ساعة من ساعات معالجة الرسومات، مما يجعله أرخص بـ 6 مرات من SD1.4، الذي تم تدريبه فقط على 512×512.
Würstchen V2 هو نموذج الانتشار يعمل في مساحة كامنة مضغوطة للغاية من الصور، مما يقلل من التكاليف الحسابية للتدريب والاستدلال من خلال أوامر من حيث الحجم. إنه يستخدم تصميمًا جديدًا يحقق ضغطًا مكانيًا يصل إلى 42 مرة، وهو إنجاز لم يسبق له مثيل. يستخدم Würstchen ضغطًا على مرحلتين، المرحلة A والمرحلة B، والتي تعمل على فك تشفير الصور المضغوطة وإعادتها إلى مساحة البكسل. يتم تعلم النموذج الثالث، المرحلة C، في الفضاء الكامن المضغوط للغاية، مما يتطلب أجزاء من الحوسبة المستخدمة للنماذج الحالية عالية الأداء مع السماح باستدلال أرخص وأسرع.
يتكون Würstchen V2 من مرحلتين للانتشار:
- المرحلة أ: تتضمن هذه المرحلة نشرًا مشروطًا بالنص وتتميز بمليار معلمة مذهلة. يتم تحقيق التسارع هنا من خلال تقنيات الضغط العالية جدًا. والجدير بالذكر أنه بدلاً من حجم الكود المخفي 1x128x128، كما هو موضح في SDXL، يعمل Würstchen V4 في البداية بدقة 2x24x24. وهذا يعني عددًا أقل من البكسلات ولكن المزيد من القنوات، مما يؤدي إلى زيادة كبيرة في السرعة.
- المرحلة ب: هذا نموذج نشر مجهز بـ 600 مليون معلمة، وهو مسؤول عن فك ضغط الصورة من 24×24 إلى دقة 128×128.
استكمال العملية عبارة عن وحدة فك ترميز تحتوي على 20 مليون معلمة تعمل على تحويل الكود المخفي إلى صورة معروضة.
الميزة العملية التي تبرز على الفور هي السرعة الرائعة لـ Würstchen V2. إنه يعمل بسرعة أعلى بمقدار 2-2.5 مرة من SDXL، وهو تقدم جدير بالملاحظة في مجال توليد الصور بالذكاء الاصطناعي.
كما هو الحال مع أي ابتكار تكنولوجي، قد تكون هناك مقايضات. وفيما يتعلق بجودة الصورة، يشير بعض الخبراء إلى خسارة طفيفة، على الرغم من أنه ما زال ينتظر إجراء مقارنة شاملة وصادقة لتقديم أدلة ملموسة.
فيما يلي أمثلة على تحويل النص إلى صورة:
اقرأ المزيد من الموضوعات ذات الصلة:
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.
المزيد من المقالاتدامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.