لافا مقابل. GPT-4: مواجهة مفتوحة المصدر للذكاء الاصطناعي تسلط الضوء على إمكانات الوسائط المتعددة والقيود الرياضية
في العرض الأخير ل GPT-4، وكانت إحدى الميزات البارزة هي قدرته على المشاركة في محادثات غنية بالصور. ومع ذلك، هذه القدرة لم يتم دمجها بعد OpenAIعرض. بينما أبرزنا سابقا اختصاص بنج في هذا الجانب، ظهر الآن حل مفتوح المصدر في شكل "مساعد اللغة والرؤية الكبير" (لافا).
إمكانات LLaVA المتعددة الوسائط
LLaVA هو ذكاء اصطناعي متعدد الوسائط ومفتوح المصدر يجمع بين معالجة اللغة والرؤية. يمكن الوصول إلى عرض توضيحي لـ LLaVA هنا.
لقد أجرينا اختبارًا بسيطًا عن طريق إدخال صورة لسيارة أجرة ورجل، وزودتني LLaVA بتحليل وصفي. ومع ذلك، فإن محاولاتي لتحديها بمسائل رياضية، مماثلة لتلك التي تناولها Bing، باءت بالفشل. يبدو أن LLaVA يعاني من مشاكل في الرياضيات، على الرغم من كفاءته في التعرف على الصور.
التحديات مع المهام الرياضية
لقد قدمنا لـ LLaVA مشكلة رياضية تتضمن علم المثلثات، شبيهة بتلك التي تم حلها بنجاح بواسطة Bing. لسوء الحظ، لم تتمكن LLaVA من توفير الحل الصحيح، حيث قامت بإرجاع إجابة خاطئة للجذر التربيعي لـ 169 وهي 13.2.
دعونا نحل هذا الاستعلام
تتضمن المهمة التي بين أيدينا تحديد طول قطر مثلث قياس أضلاعه 5 سم و12 سم. ولتحقيق ذلك، يمكننا استخدام نظرية فيثاغورس، التي تنص على أنه في المثلث القائم الزاوية، فإن مربع طول الوتر (الضلع المقابل للزاوية القائمة) يساوي مجموع مربعي الضلعين الآخرين.
في هذا السيناريو، يتوافق الوتر مع قطر المثلث، وهو ما يمكننا التأكد منه عن طريق أخذ الجذر التربيعي لمجموع مربعي الضلعين المعينين.
للبدء، علينا إيجاد طول القطر، وهو الضلع الذي يصل بين رأسي المثلث غير المتجاورين. في هذه الحالة، يرتبط هذين الرأسين بجوانب قياسها 5 سم و12 سم.
والآن دعونا نطبق نظرية فيثاغورس:
(5 سم)^2 + (12 سم)^2 = القطر^2
5^2 + 12^2 = قطري^2
25 + 144 = القطر ^2
169 = قطري^2
وأخيرًا، يمكننا تحديد طول القطر بأخذ الجذر التربيعي للطرفين:
√169 = قطري
يبلغ طول القطر حوالي 13.2 سم.
منظور غير عادي على الصور
يتفوق LLaVA في قدرته على التحدث باستخدام الصور، على الرغم من استمرار التحديات، خاصة في حل المشكلات الرياضية. على سبيل المثال، عندما عرضت عليها صورة رجل يميل من نافذة سيارة أجرة صفراء، ويحمل حبل غسيل وقميصًا أبيض، قدمت LLaVA منظورًا غير عادي. وأشارت إلى أن مثل هذا المشهد غير معتاد، لأنه ليس من الشائع رؤية أفراد ينحنون من نوافذ السيارات وهم يحملون ملابسهم. وأشار التحليل إلى أن الرجل ربما يحاول استخدام طريقة غير تقليدية وربما غير آمنة لتجفيف قميصه أثناء تحرك سيارة الأجرة.
في حين أن LLaVA يقدم إمكانات واعدة متعددة الوسائط، خاصة في التحدث مع الصور، إلا أنه يواجه قيودًا في حل المشكلات الرياضية. ومن الجدير بالذكر أن قدرات Google في هذا الصدد تفوق قدرات LLaVA، كما يتضح من الحل الأكثر دقة لمشكلة رياضية مماثلة.
يعد تطوير الذكاء الاصطناعي بقدرات متعددة الوسائط بلا شك تقدمًا مثيرًا، ويعد LLaVA جهدًا مفتوح المصدر يستحق الثناء في هذا الاتجاه. ومع ذلك، هناك حاجة إلى تحسينات لتعزيز الرياضيات قدرات المنطق لتتناسب مع كفاءته في تحليل الصور.
للحصول على حل رياضي أكثر دقة، تتفوق إمكانيات Google حاليًا على: جوجل لحل المسائل الرياضية.
اقرأ المزيد عن الذكاء الاصطناعي:
إخلاء المسئولية
تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.
نبذة عن الكاتب
دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.
المزيد من المقالاتدامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت.