تقرير الأخبار تكنولوجيا
29 مايو 2023

قامت Google بتدريس نموذج AI Flamingo لكتابة أوصاف لمقاطع فيديو YouTube

في سطور

يحل Flamingo مشكلة صعوبة العثور على مقاطع الفيديو القصيرة من خلال البحث عن طريق إنشاء الأوصاف تلقائيًا.

جوجل ديب مايند ، مختبر أبحاث الذكاء الاصطناعي ، لديه المتقدمة نموذج لغة مرئي يسمى Flamingo قادر على كتابة أوصاف لمقاطع فيديو قصيرة على YouTube. المشكلة التي يعالجها Flamingo هي أنه غالبًا ما يصعب تحديد موقع مقاطع الفيديو القصيرة عبر البحث بسبب نقص المعلومات الضرورية في الوصف. يحل نموذج Flamingo هذه المشكلة عن طريق إنشاء نصوص تلقائيًا لملايين مقاطع الفيديو القصيرة على مواقع استضافة الفيديو ، والتي تُستخدم "خلف الكواليس" لتمكين البحث السهل. على الرغم من أن مؤلفي الفيديو لن يروا البيانات الوصفية ، إلا أنها تساعد المشاهدين في العثور على الأفلام القصيرة والتنقل فيها. يعمل Flamingo حاليًا على مقاطع جديدة ومعالجة مقاطع الفيديو القديمة التي تم تحميلها على YouTube لفترة طويلة.

قامت Google بتدريس نموذج AI Flamingo لكتابة أوصاف لمقاطع فيديو YouTube
Deepmind.com

في الماضي ، قدمت Google خوارزمية تمكن الأشخاص من البحث عن المعلومات داخل مقاطع الفيديو باستخدام شريط البحث. في الآونة الأخيرة ، جمعت TwelveLabs 12 مليون دولار من المستثمرين لتطوير مماثل. هذه الأدوات تخلق فرصًا جديدة للفيديو منشئو المحتوى لزيادة مدى وصولهم وظهورهم. من خلال الاستفادة من الذكاء الاصطناعي لتحسين وتبسيط عملية البحث واكتشاف المحتوى القصير ، تُحدث DeepMind والشركات الناشئة المماثلة ثورة في مجال الفيديو تدفق الخدمات. إنهم يساهمون في تطوير تقنيات بحث أكثر ذكاءً وكفاءة ، مما يسهل على المشاهدين العثور على المحتوى الذي يثير اهتمامهم حقًا.

يلعب الذكاء الاصطناعي دورًا مهمًا في ترقية تقنيات البحث. من خلال الاستفادة من الذكاء الاصطناعي ، يمكن لنموذج Flamingo مسح المحتوى وتسلسله وإنشاء نصوص تلخص المحتوى لمساعدة المستخدمين على التنقل. يستخدم نموذج Flamingo شبكات عصبية عميقة لإنشاء أوصاف نصية لمقطع فيديو بناءً على محتوى الفيديو الصوتي والمرئي. يمكنه التقاط المكونات السمعية والبصرية للمحتوى القصير وتحويلها إلى ملخص يسهل على المستخدمين البحث عنه والوصول إليه.

يمكن أن يساعد استخدام الذكاء الاصطناعي في تحديد المعلومات المهمة للمستخدمين ، والتي قد يتم إغفالها في الجهود اليدوية للمبدعين أثناء إضافة الأوصاف. إن الجهد الذي يستغرق وقتًا طويلاً لالتقاط كل التفاصيل يدويًا ليس عمليًا دائمًا ، خاصة مع التدفق المستمر لمحتوى الفيديو القصير الذي يتم تحميله على منصات مثل YouTube. يمكن أن يؤدي ذلك إلى إرباك المستخدم وإحباطه عند البحث عن محتوى محدد قصير الشكل. ومع ذلك ، باستخدام نماذج اللغة المرئية ، مثل Flamingo ، يمكن إنشاء البيانات الوصفية تلقائيًا لتوفير ملخص لسهولة الوصول إليها ، وبالتالي توفير الوقت وجعل عملية البحث أكثر كفاءة ودقة.

يضع Flamingo نماذج لغة بصرية جديدة على أحدث طراز للمهام المفتوحة

أهم التفاصيل هي إدخال Flamingo ، نموذج لغة مرئي واحد (VLM) التي تضع حالة جديدة من الفن في التعلم قليل اللقطات على مجموعة واسعة من المهام متعددة الوسائط مفتوحة النهاية. Flamingo هو نموذج لغة مرئي واحد (VLM) يعيدdefiمتنوعه من التعلم عبر مجموعة واسعة من الأنشطة متعددة الوسائط مفتوحة النهاية. يتلقى أ موجه تتكون من صور متداخلة ومقاطع فيديو ونص كمدخلات ومخرجات للغة المرتبطة. واجهة Flamingo المرئية والنصية ، مثل تلك الخاصة بنماذج اللغات الكبيرة (ماجستير)، يمكن أن يقود النموذج نحو تحقيق هدف متعدد الوسائط. يمكن طرح سؤال على النموذج مع صورة جديدة أو مقطع فيديو ثم إنشاء إجابة ، مع إعطاء أمثلة قليلة من أزواج المدخلات المرئية والاستجابات النصية المتوقعة المكونة في مطالبة Flamingo.

Flamingo هو نموذج لغة مرئي يدمج نماذج لغة كبيرة مع تمثيلات مرئية قوية ويتم تدريبه على مزيج من البيانات التكميلية متعددة الوسائط على نطاق واسع والتي تأتي فقط من الويب دون استخدام أي بيانات مشروحة لأغراض التعلم الآلي. إنه يتفوق على جميع مناهج التعلم السابقة ذات اللقطات القليلة عند تقديم ما لا يقل عن أربعة أمثلة لكل مهمة ويتفوق على الأساليب التي تم ضبطها وتحسينها لكل مهمة بشكل مستقل وتستخدم أوامر متعددة من البيانات الخاصة بالمهمة بشكل أكبر. كما اختبرت القدرات النوعية للنموذج بما يتجاوز معاييره الحالية ، مثل وضع تعليقات توضيحية على الصور المتعلقة بالجنس ولون البشرة وتشغيل التسميات التوضيحية التي تم إنشاؤها من خلال واجهة برمجة تطبيقات منظور Google ، والتي تقيم سمية النص. يجعل Flamingo من الممكن التكيف بكفاءة مع هذه الأمثلة والمهام الأخرى أثناء التنقل دون تعديل النموذج ويوضح إمكانات الحوار متعدد الوسائط خارج الصندوق.

Flamingo هي مجموعة من النماذج ذات الأغراض العامة التي يمكن تطبيقها على مهام فهم الصور والفيديو مع الحد الأدنى من الأمثلة الخاصة بالمهمة. إنها عائلة من النماذج ذات الأغراض العامة الفعالة والفعالة التي يمكن تطبيقها على مهام فهم الصور والفيديو مع الحد الأدنى من الأمثلة الخاصة بالمهمة. تمهد قدرات Flamingo الطريق نحو تفاعلات غنية مع نماذج اللغة المرئية التي تم تعلمها والتي يمكن أن تتيح إمكانية تفسير أفضل وتطبيقات جديدة مثيرة ، مثل المساعد البصري.

اقرأ المزيد عن الذكاء الاصطناعي:

إخلاء المسئولية

تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.

نبذة عن الكاتب

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

المزيد من المقالات
دامير يالالوف
دامير يالالوف

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

Hot Stories

Injective تتعاون مع AltLayer لجلب الأمن إلى inEVM

by أليسا ديفيدسون
03 مايو 2024
اشترك في صحيفتنا الإخبارية.
آخـر الأخبار

Injective تتعاون مع AltLayer لجلب الأمن إلى inEVM

by أليسا ديفيدسون
03 مايو 2024

تنمو الشهية المؤسسية تجاه صناديق الاستثمار المتداولة في البيتكوين وسط التقلبات

تكشف الإفصاحات من خلال ملفات 13F عن مستثمرين مؤسسيين بارزين يشتغلون بصناديق الاستثمار المتداولة في البيتكوين، مما يؤكد القبول المتزايد لـ ...

أعرف المزيد

وصول يوم النطق بالحكم: مصير تشيكوسلوفاكيا معلق في الميزان بينما تنظر المحكمة الأمريكية في التماس وزارة العدل

ومن المقرر أن يواجه Changpeng Zhao الحكم في محكمة أمريكية في سياتل اليوم.

أعرف المزيد
انضم إلى مجتمعنا التقني المبتكر
تفاصيل أكثر
المزيد
Injective تتعاون مع AltLayer لجلب الأمن إلى inEVM
باقة الأعمال تقرير الأخبار تكنولوجيا
Injective تتعاون مع AltLayer لجلب الأمن إلى inEVM
3 مايو 2024
تتعاون Masa مع Teller لتقديم مجمع إقراض MASA، مما يتيح اقتراض USDC على القاعدة
الأسواق تقرير الأخبار تكنولوجيا
تتعاون Masa مع Teller لتقديم مجمع إقراض MASA، مما يتيح اقتراض USDC على القاعدة
3 مايو 2024
تطلق Velodrome الإصدار التجريبي من Superchain في الأسابيع القادمة وتتوسع عبر OP Stack Layer 2 Blockchains
الأسواق تقرير الأخبار تكنولوجيا
تطلق Velodrome الإصدار التجريبي من Superchain في الأسابيع القادمة وتتوسع عبر OP Stack Layer 2 Blockchains
3 مايو 2024
تعلن CARV عن شراكة مع Aethir لتحقيق اللامركزية في طبقة البيانات الخاصة بها وتوزيع المكافآت
باقة الأعمال تقرير الأخبار تكنولوجيا
تعلن CARV عن شراكة مع Aethir لتحقيق اللامركزية في طبقة البيانات الخاصة بها وتوزيع المكافآت
3 مايو 2024
CRYPTOMERIA LABS PTE. المحدودة.