AI Wiki فنـون التعليم تطبيقات الكمبيوتر تكنولوجيا
24 نيسان

صعود سورا: كيف يتم إعادة الذكاء الاصطناعيdefiتحديد مشهد إنشاء محتوى الفيديو

في سطور

Sora هو نموذج ذكاء اصطناعي متقدم لتحويل النص إلى فيديو يعد بتغيير لعبة إنشاء الفيديو بالكامل.

كشفت Adobe مؤخرًا عن خطط لدمج أدوات الذكاء الاصطناعي التوليدية في نظامها بريمير برو برمجة. تتضمن هذه الخطوة منح المستخدمين إمكانية الوصول إلى أدوات مثل OpenAIيهدف Sora مباشرة داخل Premiere Pro إلى إثراء البرنامج بقدرات مدعومة بالذكاء الاصطناعي مثل معالجة المشهد وإزالة التشتيت.

بالرغم ان OpenAISora غير متاح حاليًا للعامة، وقد أظهرت Adobe اندماجها في Premiere Pro كميزة تجريبية دون توفير جدول زمني محدد لإصدارها.

Sora هو نموذج ذكاء اصطناعي متقدم لتحويل النص إلى فيديو وقد حظي بالاهتمام بسبب وعده بتغيير لعبة إنشاء الفيديو بالكامل. باعتبارها أداة واعدة ذات تأثير كبير لكل من له علاقة بإنتاج الفيديو، وتصميم الحركة، والرسوم المتحركة، تحمل هذه التكنولوجيا أيضًا تحديات حاسمة.

دعونا نستكشف جميع جوانب شخصية سورا المذهلة والتي طال انتظارها.

النص إلى الفيديو؟

تم تصميم Sora بشكل أساسي لإنشاء مقاطع فيديو نابضة بالحياة وجذابة بصريًا يتم إنشاؤها من المطالبات النصية. باعتباره تطبيقًا مبتكرًا للذكاء الاصطناعي، يهدف Sora إلى تبسيط عملية إنتاج الفيديو وتقديم إمكانيات جديدة للعمليات السردية والتواصل البصري.

تكمن جذور وظيفة Sora في قدرتها على تفسير وتنفيذ الأوامر النصية لإنشاء محتوى فيديو جذاب. من خلال الاستفادة من تقنيات التعلم العميق المتقدمة وفهم اللغة، يقوم Sora بمعالجة النص المُدخل وإنشاء مشاهد مرئية مقابلة مع الشخصيات والإعدادات والحركة. تتضمن هذه العملية تفاعلًا متطورًا بين معالجة اللغة الطبيعية وتركيب الفيديو، مما يؤدي إلى إنتاج مخرجات تتوافق بشكل وثيق مع المطالبات النصية المقدمة.

في تطوير سورا، OpenAIوشدد فريق ’s ​​على أهمية إنشاء نموذج للذكاء الاصطناعي يتضمن فهمًا عميقًا للغة وفهمًا قويًا لمبادئ رواية القصص المرئية. ومن خلال دمج أحدث التطورات في فهم اللغة الطبيعية وتركيب الفيديو، يعطي تصميم Sora الأولوية للدمج المتماسك للتعبير اللغوي والتمثيل البصري.

كيف يتم ذلك حتى ممكنا؟

لذا، يعمل Sora كنموذج نشر مشابه لأنظمة الذكاء الاصطناعي التوليدية الأخرى التي تعمل مع تحويل النص إلى صورة. ويعني ذلك أن Sora يبدأ كل إطار بضوضاء ثابتة، ثم يحول الصور إلى تصوير يشبه الموجه المحدد ووصف ما هو متوقع. وهذا ممكن بفضل التعلم الآلي. يمكن أن تمتد مقاطع فيديو Sora لمدة تصل إلى 60 ثانية.

من خلال معالجة الاتساق الزمني، يبتكر Sora من خلال النظر في إطارات فيديو متعددة في وقت واحد، مما يضمن التماسك أثناء تحرك الكائنات داخل المشهد.

من خلال دمج نماذج الانتشار والمحولات، يتبع Sora نهجًا هجينًا مشابهًا لـ GPTبنية المحولات. يسلط جاك تشياو الضوء على نقاط القوة التكميلية لهذه النماذج، مع تفوق الانتشار في توليد النسيج ولكنه يفتقر إلى التركيب الشامل، في حين تتفوق المحولات في تحديد التخطيط عالي المستوى. يعمل هذا المزيج على تعزيز قدرة المحول على تنظيم التصحيحات بينما يقوم نموذج الانتشار بملء التفاصيل.

في تنفيذ سورا، يتم تقسيم الصور إلى بقع ثلاثية الأبعاد لاستيعاب الثبات الزمني. ويعكس هذا عملية الترميز في نماذج اللغة، حيث تمثل التصحيحات عناصر مجموعة من الصور. بالإضافة إلى ذلك، يتم تطبيق خطوة تقليل الأبعاد لتبسيط الكفاءة الحسابية.

لتحسين دقة الفيديو، يستخدم Sora تقنية إعادة تسجيل مشابهة لـ DALL · E 3، حيث GPT يعيد كتابة مطالبات المستخدم بتفاصيل إضافية قبل إنشاء الفيديو. ويعد هذا بمثابة شكل من أشكال التحسين السريع التلقائي، مما يضمن الالتزام الصادق بمدخلات المستخدم.

ما مدى جودة سورا الآن؟

OpenAI يعترف بالعديد من القيود في التكرار الحالي لـ Sora. والجدير بالذكر أن سورا يفتقر إلى فهم متأصل للفيزياء، مما يعني أنه قد لا يلتزم باستمرار بالمبادئ الفيزيائية في العالم الحقيقي.

على سبيل المثال، يفشل النموذج في فهم العلاقات بين السبب والنتيجة، مما يؤدي إلى تناقضات محتملة. وبالمثل، فإن تحديد المواقع المكانية للأشياء قد يعرض تحولات غير طبيعية.

عندما يتعلق الأمر بالموثوقية، يظل وضع سورا غير مؤكد. بالرغم من OpenAI قدمت أمثلة تثبت الجودة العالية، ومن غير الواضح إلى أي مدى حدث العرض الانتقائي. في تطبيقات تحويل النص إلى صورة، يعد إنشاء صور متعددة واختيار أفضلها ممارسة شائعة. العدد الدقيق للصور التي تنتجها OpenAI لم يتم الكشف عن الفريق لعرض مقاطع الفيديو في مقال إعلانهم. قد يؤدي هذا النقص في الشفافية إلى إعاقة عملية التبني، خاصة إذا كان إنشاء مئات أو آلاف مقاطع الفيديو مطلوبًا للحصول على نتيجة واحدة قابلة للاستخدام. وللتخفيف من حالة عدم اليقين هذه، يجب علينا أن ننتظر إمكانية الوصول إلى الأداة على نطاق أوسع.

أين سيكون سورا مفيدًا؟

تمتد قدرات Sora إلى إنشاء الفيديو من الصفر، وإطالة اللقطات الموجودة، والملء السلس للإطارات المفقودة داخل مقاطع الفيديو.

على غرار الطريقة التي أحدثت بها أدوات الذكاء الاصطناعي المولدة لتحويل النص إلى صورة ثورة في إنشاء الصور دون مهارات التحرير الفنية، يهدف Sora إلى تبسيط إنتاج الفيديو دون الحاجة إلى خبرة في تحرير الصور. فيما يلي بعض سيناريوهات التطبيق الأساسية:

  • يتيح Sora إنشاء مقاطع فيديو قصيرة مصممة خصيصًا لمنصات التواصل الاجتماعي مثل TikTok وInstagram Reels وYouTube Shorts. إنه يتفوق بشكل خاص في صياغة المحتوى الذي قد يكون من الصعب أو غير العملي تصويره باستخدام الطرق التقليدية.
  • تقليديًا، يمكن تبسيط المساعي باهظة الثمن مثل إنتاج الإعلانات ومقاطع الفيديو الترويجية وعروض المنتجات بشكل كبير باستخدام أدوات الذكاء الاصطناعي لتحويل النص إلى فيديو مثل Sora، والتي تقدم حلولاً فعالة من حيث التكلفة.
  • وحتى لو لم يتم دمج مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي في المنتجات النهائية، فإنها تعمل كأدوات قيمة لتوضيح المفاهيم بسرعة. يمكن لصانعي الأفلام استخدام الذكاء الاصطناعي لإنشاء نماذج بالحجم الطبيعي للمشهد قبل التصوير، بينما يمكن للمصممين تصور المنتجات قبل التصنيع. على سبيل المثال، يمكن لشركة ألعاب أن توظف Sora لإنشاء نموذج بالذكاء الاصطناعي للعبة سفينة قراصنة جديدة لتقييم جدواها قبل الإنتاج الضخم.
  • تثبت البيانات الاصطناعية أنها لا تقدر بثمن في المواقف التي تمنع فيها المخاوف المتعلقة بالخصوصية أو الجدوى استخدام البيانات الحقيقية. في حين يتم تطبيقها عادةً على البيانات الرقمية مثل السجلات المالية ومعلومات التعريف الشخصية، يمكن إنشاء بيانات تركيبية ذات خصائص مماثلة لتسهيل الوصول إليها على نطاق أوسع. في مجال الفيديو، تعد البيانات الاصطناعية مفيدة لتدريب أنظمة الرؤية الحاسوبية.

التحديات المرتبطة بسورا

  • وباعتباره منتجًا تم تقديمه حديثًا، لم يتم توضيح مخاطر سورا بالكامل بعد؛ ومع ذلك، من المتوقع أن تكون مماثلة لتلك التي تمت مواجهتها مع نماذج تحويل النص إلى صورة.
  • بدون ضمانات كافية، يمكن لـ Sora إنشاء محتوى مرفوض أو غير مناسب، مثل مقاطع الفيديو التي تحتوي على عنف، وصور رسومية، ومواد جنسية صريحة، وتمثيلات مهينة لمجموعات معينة، والترويج للأنشطة غير القانونية أو تمجيدها. يمكن أن يختلف المحتوى الذي يشكل محتوى غير لائق اختلافًا كبيرًا اعتمادًا على المستخدم (مثل طفل مقابل شخص بالغ) والظروف التي يتم فيها إنشاء مقاطع الفيديو (مثل مقطع فيديو تعليمي عن مخاطر الألعاب النارية يعرض مشاهد مصورة عن غير قصد).
  • مقاطع الفيديو النموذجية التي تمت مشاركتها بواسطة OpenAI أثبت أن إحدى قدرات سورا البارزة هي مهارته في إنشاء سيناريوهات خيالية تتجاوز الواقع. ومع ذلك، فإن هذه القدرة أيضًا تجعلها عرضة لتوليد "وهمية عميقةمقاطع الفيديو، حيث يتم تغيير الأفراد أو المواقف الحقيقية لنقل الأكاذيب، سواء عن غير قصد (معلومات مضللة) أو عن قصد (معلومات مضللة). مثل هذا المحتوى يمكن أن يؤدي إلى عواقب وخيمة.
  • ترتبط النتائج التي تنتجها نماذج الذكاء الاصطناعي التوليدية بطبيعتها بالبيانات التي تم تدريبها عليها. ولذلك، قد تظهر التحيزات الثقافية أو الصور النمطية المضمنة في بيانات التدريب في مقاطع الفيديو التي تم إنشاؤها، مما قد يؤدي إلى إدامة مشاكل مماثلة.

ماذا يكون ال OpenAI هل يقوم الفريق بمنع المخاطر المذكورة أعلاه؟

في الوقت الحالي، يمكن الوصول إلى Sora حصريًا لـ "الأحمر، تيم"الباحثون - الخبراء المكلفون بتحديد المشكلات المحتملة في النموذج والتخفيف من حدتها. يسعى هؤلاء الباحثون إلى إنشاء محتوى قد يعرض المخاطر الموضحة، مما يسمح بذلك OpenAI لمعالجة وتصحيح أي مخاوف قبل الإفراج العام عن سورا.

هل يستطيع سورا أن يتركني بدون وظيفة؟

إن قدرة Sora على إنتاج محتوى فيديو عالي المستوى استنادًا إلى الإشارات النصية لديها القدرة على إحداث تحولات ملحوظة في مشهد التوظيف الإبداعي. المواقف التقليدية في مجال تصوير الفيديو والمؤثرات الخاصة والرسوم المتحركة تخاطر بالتقادم في مواجهة مثل هذه التطورات. في حين أن بعض المبدعين قد يعتمدون على صقل الخبرة في الإشراف على وظائف الذكاء الاصطناعي، واستخدام الذكاء الاصطناعي الأخلاقي، وتوجيه الاتجاه الإبداعي لتسخير قدرات الذكاء الاصطناعي، فإن جدوى هذا التحول للجميع لا تزال غير مؤكدة.

ومن ناحية أخرى، من خلال الحد من العقبات التقنية والمالية المرتبطة بإنتاج الفيديو، فإن سورا لديه القدرة على تمكين مجموعة واسعة من الأفراد لصياغة محتوى عالي الجودة. قد يؤدي هذا التحول إلى الديمقراطية إلى تعزيز زيادة في توزيع المحتوى المتنوع والمبتكر. وفي حين أنه قد يتطلب من الكيانات الإعلامية القائمة ومنشئي المحتوى تعديل وتقديم أساليب مبتكرة، فإن هذا التطور يمكن أن يبشر بنتائج إيجابية.

وفي كلتا الحالتين، بعد الإصدار الشامل، سوف يتسبب Sora بلا شك في حدوث تغييرات في الفيديو والصناعات ذات الصلة، وكذلك في إنشاء المحتوى الشخصي.

الآثار الطويلة الأجل ل OpenAI سورا

عندما يصبح سورا راسخًا في سير العمل الاحترافي، يتجلى تأثيره الدائم:

إطلاق العنان لحالات الاستخدام ذات القيمة العالية: يعد تكامل Sora عبر الصناعات بتطبيقات تحويلية، بما في ذلك:

  • تسريع إنتاج المحتوى: يعمل Sora على تبسيط إنشاء الوسائط عبر قطاعات الواقع الافتراضي والواقع المعزز والألعاب والترفيه التقليدي، مما يؤدي إلى تسريع دورات الإنتاج وتسهيل التفكير.
  • تجارب مخصصة: يظهر محتوى مخصص برعاية Sora ليتناسب مع التفضيلات الفردية، ويعيد تشكيل نماذج الترفيه والتعليم لتناسب أنماط وأذواق التعلم المتنوعة.
  • التكيف في الوقت الفعلي: يسمح تحرير الفيديو الديناميكي بواسطة Sora بإجراء تعديلات سريعة على المحتوى، مما يلبي تفضيلات الجمهور وملاحظاته في الوقت الفعلي.
  • عدم وضوح الحدود الرقمية: يؤدي تآزر Sora مع الواقع الافتراضي والواقع المعزز إلى طمس الخطوط الفاصلة بين العوالم المادية والرقمية، مما يقدم تجارب غامرة جديدة وفرصًا لسرد القصص التفاعلية.

في جوهره، يبشر ظهور Sora بعصر تحويلي في إنشاء المحتوى القائم على الذكاء الاصطناعي، وإعادة تشكيل الصناعات، والسرد، وتجارب المستخدم بطرق عميقة.

إخلاء المسئولية

تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.

نبذة عن الكاتب

Zhauhazyn هو مؤلف الإعلانات وتخصص في علم الاجتماع. مفتونة بالديناميكيات المعقدة لدراسات العلوم والتكنولوجيا، فهي تتعمق في عالم Web3 مع شغف شديد بـ blockchain.

المزيد من المقالات
زوهازين شادن
زوهازين شادن

Zhauhazyn هو مؤلف الإعلانات وتخصص في علم الاجتماع. مفتونة بالديناميكيات المعقدة لدراسات العلوم والتكنولوجيا، فهي تتعمق في عالم Web3 مع شغف شديد بـ blockchain.

Hot Stories
اشترك في صحيفتنا الإخبارية.
آخـر الأخبار

تنمو الشهية المؤسسية تجاه صناديق الاستثمار المتداولة في البيتكوين وسط التقلبات

تكشف الإفصاحات من خلال ملفات 13F عن مستثمرين مؤسسيين بارزين يشتغلون بصناديق الاستثمار المتداولة في البيتكوين، مما يؤكد القبول المتزايد لـ ...

لمعرفة المزيد

وصول يوم النطق بالحكم: مصير تشيكوسلوفاكيا معلق في الميزان بينما تنظر المحكمة الأمريكية في التماس وزارة العدل

ومن المقرر أن يواجه Changpeng Zhao الحكم في محكمة أمريكية في سياتل اليوم.

لمعرفة المزيد
انضم إلى مجتمعنا التقني المبتكر
تفاصيل أكثر
المزيد
تُدرج بورصة العملات المشفرة OKX عملة Notcoin، ومن المقرر أن تقدم التداول الفوري مع زوج NOT-USDT في 16 مايو
الأسواق تقرير الأخبار تكنولوجيا
تُدرج بورصة العملات المشفرة OKX عملة Notcoin، ومن المقرر أن تقدم التداول الفوري مع زوج NOT-USDT في 16 مايو  
10 مايو 2024
تطلق Blast حدث توزيع الذهب الثالث، وتخصص 15 مليون نقطة للتطبيقات اللامركزية
الأسواق تقرير الأخبار تكنولوجيا
تطلق Blast حدث توزيع الذهب الثالث، وتخصص 15 مليون نقطة للتطبيقات اللامركزية
10 مايو 2024
تتعاون Espresso Systems مع Polygon Labs لتطوير طبقة AggLayer لتحسين إمكانية التشغيل البيني المجمع
باقة الأعمال تقرير الأخبار تكنولوجيا
تتعاون Espresso Systems مع Polygon Labs لتطوير طبقة AggLayer لتحسين إمكانية التشغيل البيني المجمع
9 مايو 2024
بروتوكول البنية التحتية المدعوم من ZKP ZKBase يكشف عن خارطة الطريق ويخطط لإطلاق Testnet في مايو
تقرير الأخبار تكنولوجيا
بروتوكول البنية التحتية المدعوم من ZKP ZKBase يكشف عن خارطة الطريق ويخطط لإطلاق Testnet في مايو
9 مايو 2024
CRYPTOMERIA LABS PTE. المحدودة.