دال-E 3 مقابل. Midjourney: مقارنة كبيرة بين المولدات الفنية الأكثر تقدمًا في مجال الذكاء الاصطناعي
انضم إلينا في هذه الرحلة المثيرة بينما نستكشف Dall-E 3 و Midjourneyالتفاصيل الدقيقة والتعقيدات والإمكانات غير المستغلة. يسلط هذا المقال الضوء على المقارنات الأكثر إثارة للاهتمام استنادًا إلى البحث الذي أجراه أتاتشكينا المتحمس للذكاء الاصطناعي؛ إذا كنت مهتمًا بمعرفة المزيد، فانقر فوق الصفحة .
نصائح للمحترفين |
---|
1. كشف أفضل 50 مطالبة لتحويل النص إلى صورة لمولدات الفن AI Midjourney و DALL-E. |
2. أشعل إبداعك مع أفضل 20 مولدًا فنيًا لتحويل النص إلى صورة بتقنية الذكاء الاصطناعي من 2023. |
توفر هذه المقالة مطالبة بتحويل النص إلى صورة، وهي صورة تعرض النتائج من Dall-E 3 و Midjourney، وتوضيح الفرق بين الاثنين مولدات الفن. هيا نبدأ.
كان أداء كلتا الشبكتين العصبيتين مثيرًا للإعجاب في هذه الحالة، مع Midjourney يتفوق قليلا على الآخرين.
قام Dall-E 3 بعمل أسوأ بكثير هنا؛ حصلت على الألوان الزاهية للأنماط، ولكن ليس وضوح التفاصيل؛ ظهرت أجساد مشوهة في الخلفية، ولم تكن الوجوه ناجحة على الإطلاق.
اتضح أن كلا المكانين كانا مثيرين للاهتمام، لكن Dall-E 3 عانى مرة أخرى مع الوجوه. وبدلاً من ذلك، صنعت حقيبة بيج فخمة وفقًا للتعليمات الواردة في الموجه، و Midjourney تجاهل ذلك. في هذه الحالة، كان Dall-E 3 مطيعًا جدًا في تنفيذ الأمر.
ومرة أخرى، في حين أن كلتا الشبكتين تصنعان صورًا مجمعة ممتازة، فإن Dall-E 3 أكثر إخلاصًا للموجه؛ أضافت فقط الأبطال الذين حددناهم، ولا يمكن أن تتحول إلى جوكر، وتجاوزت الكابتن مع باتمان.
Midjourney كان قادرًا على الجمع بين أسلوبي الفنانين من خلال الموجه، بينما أضاف Dall-E 3 الكثير من التفاصيل المزدحمة والألوان الزاهية إلى الخلفية.
ومرة أخرى، أصبحت القطط في أفضل حالاتها، وكلتا الشبكتين العصبيتين تستوعبان كاميرات الأفلام بشكل مثالي. ومع ذلك، يضيف Dall-E 3 الحبوب إلى الصور.
ابتكر Dall-E 3 ليوناردو دي كابريو الشاب بملمس رائع، وحبيبات الفيلم المضافة ونظام الألوان، ويعكس بشكل رائع إحساس الداشا الروسي. Midjourney كانت عاكسة جيدة للألوان في الفيلم، وأعطاها دي كابريو مظهرًا أكثر نضجًا.
على الرغم من كليهما الشبكات العصبية ماهرون في إنشاء الملصقات، إذا نظرت عن كثب، Midjourney يشوه الوجوه وبعض أشكال الكائنات، في حين أن Dall-E 3 أكثر دقة في تنفيذ الشخصيات نفسها - حتى أنه تبين أنها Chewbacca.
عندما تقوم بتكبير الصور، ستلاحظ أن عيون Dall-E 3 ضبابية؛ Midjourney، من ناحية أخرى، لا تشوبه شائبة. Dall-E 3 وصف أيضًا علامة تجارية؛ تبدو الثعابين الموجودة على الرؤوس أكثر حيوية وحركة؛ Midjourney جعلهم دائمًا مستلقين وليس على رؤوسهم.
كلاهما رائعان، ولكن Midjourney اعتبر أسلوب الفنان بالإضافة إلى تأثير كاميرا الفيلم، بينما تجاهل Dall-E 3 اللقطة الكاملة ولم يأخذها في الاعتبار.
لقد اتخذنا أيضًا قرارًا باختبار صورة مع الجنيات، لكن Dall-E 3 رفض التعاون بعناد. Midjourney ولم يتجاهل الأجنحة لأن الإشارة بالأجنحة قد أضيفت. عندما التقط Dall-E 3 صورة، عرضت بعض الاحتمالات المثيرة للاهتمام، ولكن مع امرأة أمريكية.
Midjourney لقد قام بعمل رائع، لكننا نريد أن نلفت انتباهًا خاصًا إلى كيفية قيام Dall-E 3 بإنشاء تأثيرات الفيلم في الصورة اليمنى العلوية وإضافة خط اليد الأبيض الخاص به؛ اتضح عظيم.
كان Dall-E 3 قادرًا على إدراك جميع أبطال الموجه بطاعة شديدة في صورة واحدة مرة أخرى. Midjourney لقد بذلت جهدًا كبيرًا واقتربت من النجاح.
للوهلة الأولى، يبدو أن كلاهما جيد، لكن الفحص الدقيق يكشف أن Dall-E 3 يفتقر إلى الحجم الواقعي وأن Midjourney تعامل مع المفاصل بالشوك بقوة.
كلا المولدين بارعون في مجالات تخصصهم، مع تفوق Dall-E 3 في النص و Midjourney متفوق في الواقعية.
من الصعب التعامل مع فيزياء وهندسة مجففات الشعر Midjourney. يمكنك قضاء الكثير من الوقت في محاولة البحث عن المحاولات والمراجع، وأحيانًا تشبه النتائج مجفف الشعر، لكن Dall-E 3 أنتج نتيجة مقبولة من المحاولة الأولى، بل وقام بكتابة النص.
العين الوحيدة جيدة، لكن تلك قصة أخرى. في Midjourney، لقد كتبنا موجهًا سلبيًا - لا توجد رسوم متحركة، رسم توضيحي، مسطح، عينان. أطاع Dall-E 3 على الفور وخلع عينًا واحدة وابتسم وخلع القبعة، لكنه رفض رفضًا قاطعًا السماح لأي شخص بالتقاط صورتها.
Midjourney جعلنا الجيل مختلفًا عن براد، لذلك استخدمنا خدمة Insight الإضافية علوي قابل للتغيير الوجه ليضع وجه براد على الجيل؛ كان هناك وظيفة حول هذا الموضوع هنا. يعرف Dall-E 3 من هو براد بيت ويمكنه رسم النجوم بدون أي برامج إضافية.
كلتا الشبكتين جيدتان، لكن Dall-E 3 يمكنه إنشاء قرون وحيد القرن أثناء ذلك Midjourney عادة لا يمكن ذلك.
قام Dall-E 3 بعمل جيد في وضع الشخصيات موضع التنفيذ؛ يمكننا أن نرى شركة مصفاة نفط عمان وقزم مع آذان قزم. هناك أيضًا شخص يرتدي بدلة رياضية من ماركة Nike، لكن عيونه ملطخة. يتم تجاهل آذان الجان المدببة في الغالب Midjourney، ويتم تجاهل Nike أيضًا.
عندما تم استبعاد "الرسم التوضيحي" الملحق في البداية من الموجه، قام Dall-E 3 بإنشاء واحد. ثم قررنا مقارنتها Midjourneyالرسم التوضيحي. بينما Midjourney تشبه إلى حد كبير الرسوم التوضيحية التي تعود إلى الحقبة السوفيتية ولم تتضمن الأجنحة الخيالية، وقد قام Dall-E 3 بعمل رائع في رسم المطرقة والمنجل. يوضح المثال الموجود على اليمين كيف قد يظهر Dall-E 3 في النص.
ومع ذلك، Midjourney ذهب إلى الواقعية. لا توجد شخصية رئيسية في الصور، فقط المناطق المحيطة بها، لكنها لا تزال رائعة. لم يرغب Dall-E 3 في الظهور في الصورة مرة أخرى.
دال-E 3 مقابل. Midjourney: إيجابيات وسلبيات
وبينما يستكشف المستخدمون هذه التكنولوجيا، تم الكشف عن العديد من نقاط القوة والقيود الملحوظة، مما ألقى مزيدًا من المعرفة حول وظائفها.
الايجابيات:
- الطاعة الفورية: إحدى الميزات البارزة في Dall-E 3 هي قدرته الرائعة على متابعة المطالبات بدقة. أبلغ المستخدمون أن نموذج الذكاء الاصطناعي يستجيب بشكل فعال لمجموعة واسعة من المدخلات، مما يجعله أداة متعددة الاستخدامات لمختلف المهام.
- الإبداع المتعدد الأوجه: يُظهر Dall-E 3 القدرة على تصوير شخصيات متعددة في صورة واحدة، مما يوسع إمكاناته لسرد القصص والمشاريع الإبداعية. يعزز هذا النهج متعدد الأوجه فائدته عبر مجالات مختلفة.
- تكامل النص: لاحظ المستخدمون كفاءة Dall-E 3 في دمج النص بسلاسة في الصور. تسهل هذه الميزة إنشاء محتوى جذاب بصريًا باستخدام عناصر نصية مضمنة.
سلبيات:
- وضوح الصورة: أحد القيود الملحوظة هو ميل الذكاء الاصطناعي إلى إنتاج صور ذات وجوه وعيون غير واضحة. وفي حين أنها تتفوق في الإبداع، إلا أنها تفتقر في بعض الأحيان إلى الوضوح والدقة التي نراها في المحتوى الذي ينشئه الإنسان.
- تناسق النمط: لا يقوم Dall-E 3 بتكرار أنماط فنانين محددين باستمرار، وهو ما قد يكون عيبًا لأولئك الذين يسعون إلى محاكاة فنية دقيقة.
- متطلبات VPN: يتطلب الوصول إلى Dall-E 3 حاليًا استخدام VPN، مما قد يشكل تحديات إمكانية الوصول لبعض المستخدمين.
- إدارة الصور: واجه المستخدمون قيودًا عند إدارة الصور التي تم إنشاؤها على موقع Microsoft Bing. والجدير بالذكر أنه لا توجد وظيفة توجيه التنسيق، ويقتصر سجل الصور على التحميلات الأخيرة، مما يستلزم النسخ الفوري لاستخدامها لاحقًا.
- سرعة التوليد: في بعض الحالات، تم الإبلاغ عن أن عملية التوليد في Dall-E 3 كانت أبطأ مقارنة بنماذج الذكاء الاصطناعي الأخرى.
على الرغم من هذه القيود، يحمل Dall-E 3 وعدًا كبيرًا. يدرك المستخدمون والخبراء على حد سواء قدرته على إحداث ثورة في إنشاء المحتوى وسرد القصص. مثل OpenAI تواصل شركة Dall-E 3 تحسين وتوسيع عروضها، ومن المتوقع أن تتألق نقاط قوة Dall-E XNUMX بشكل أكثر إشراقًا، مما يجعلها أداة قيمة في مختلف المجالات.
الأسئلة الشائعة
كلا Dall-E 3 و Midjourney لديهم نقاط القوة والضعف لديهم. Dall-E 3 مطيع بشكل خاص للمطالبات ويمكنه دمج النص بسلاسة في الصور. ومع ذلك، فإنه ينتج أحيانًا صورًا ذات وجوه وعيون غير واضحة وقد لا يكرر باستمرار أنماط فنانين محددين. على الجانب الآخر، Midjourney يتفوق في التصوير الواقعي ولكنه قد لا يلتقط دائمًا جوهر بعض المطالبات بدقة مثل Dall-E 3.
توفر المقالة مطالبات تحويل النص إلى صورة، وتعرض النتائج من كل من Dall-E 3 و Midjourney، ويشرح الاختلافات بين مولدي الفن.
يتمتع كلا نموذجي الذكاء الاصطناعي بنقاط القوة والضعف. على سبيل المثال، في رسالة حول رجل فضاء على كوكب المشتري، Midjourney تفوق أداء Dall-E 3 قليلاً. ومع ذلك، في مطالبة أخرى حول Wonder Woman، كان Dall-E 3 أكثر دقة في التقاط جوهر المطالبة.
- الطاعة الفورية: Dall-E 3 يتبع المطالبات بدقة.
- الإبداع متعدد الأوجه: يمكنه تصوير عدة شخصيات في صورة واحدة.
- تكامل النص: يمكن لـ Dall-E 3 دمج النص في الصور بسلاسة.
- وضوح الصورة: ينتج أحيانًا صورًا ذات وجوه وعيون غير واضحة.
- تناسق النمط: Dall-E 3 لا يكرر باستمرار أنماط فنانين محددين.
- إدارة الصور: هناك قيود عند إدارة الصور التي تم إنشاؤها على موقع Microsoft Bing.
- سرعة الجيل: يمكن أن تكون عملية إنشاء Dall-E 3 أبطأ مقارنة بنماذج الذكاء الاصطناعي الأخرى.
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.
المزيد من المقالاتدامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.