تحليل الأداء تكنولوجيا
01 أغسطس 2023

Is GPT-4 هل أنت على وشك تطوير الروبوتات الفائقة؟ لماذا يغير RT-2 كل شيء؟

في سطور

طور Google DeepMind تطبيقات نموذج لغة الرؤية لـ التحكم الآلي من طرف إلى طرف، مع التركيز على قدرتهم على تعميم ونقل المعرفة عبر المجالات.

تم اختبار نموذج RT-2 ، المصمم لإنشاء تسلسلات قادرة على ترميز كميات هائلة من المعلومات ، في سيناريوهات مختلفة ، بما في ذلك كائنات غير مألوفة وخلفيات مختلفة وبيئات متنوعة.

يتفوق نموذج RT-2 على بعض أسلافه في التكيف مع الظروف الجديدة ، ويرجع ذلك إلى حد كبير إلى نموذج اللغة الموسع.

حقق Google DeepMind في تطبيقات نموذج لغة الرؤية، مع التركيز على قدرتها على التحكم الآلي من طرف إلى طرف. سعى هذا التحقيق لتحديد ما إذا كانت هذه النماذج قادرة على التعميم على نطاق واسع. علاوة على ذلك ، فقد بحثت فيما إذا كانت بعض الوظائف المعرفية ، مثل التفكير والتخطيط ، والتي ترتبط كثيرًا بنماذج اللغة الموسعة ، يمكن أن تظهر في هذا السياق.

Is GPT-4 هل أنت على وشك تطوير الروبوتات الفائقة؟ لماذا يغير RT-2 كل شيء؟
الائتمان: Metaverse Post / Stable Diffusion

ترتبط الفرضية الأساسية وراء هذا الاستكشاف ارتباطًا جوهريًا بخصائص نماذج اللغة الكبيرة (LLMs). هذه نماذج مصممة لتوليد أي تسلسل قادر على ترميز نطاق واسع من المعلومات. هذا لا يشمل فقط لغة شائعة أو كود برمجة مثل Python ، ولكن أيضًا أوامر محددة يمكن أن توجه الإجراءات الروبوتية.

لوضع هذا في المنظور ، ضع في اعتبارك قدرة النموذج على فهم وترجمة تسلسلات سلسلة معينة إلى أوامر آلية قابلة للتنفيذ. كتوضيح ، يمكن فك تشفير سلسلة مُنشأة مثل "1 128 91 241 5" بالطريقة التالية:

  • يشير الرقم الأولي ، واحد ، إلى أن المهمة لا تزال جارية ولم تصل إلى الاكتمال.
  • يعيّن ثالوث الأرقام التالي ، 128-91-241 ، تحولًا نسبيًا وموحدًا عبر الأبعاد الثلاثة للفضاء.
  • المجموعة الختامية ، 101-127-217 ، تحدد بدقة درجة دوران جزء ذراع الروبوت الوظيفي.

مثل هذا التكوين تمكن الروبوت لتعديل حالتها عبر ست درجات من الحرية. رسم موازٍ ، تمامًا مثل نماذج اللغة من خلال استيعاب الأفكار والمفاهيم العامة من البيانات النصية الواسعة على الإنترنت ، يستخرج نموذج RT-2 المعرفة من المعلومات المستندة إلى الويب لتوجيه الإجراءات الروبوتية.

الآثار المحتملة لهذا كبيرة. إذا تعرض نموذج لمجموعة منسقة من المسارات التي تشير بشكل أساسي إلى ، "لتحقيق نتيجة معينة ، تحتاج آلية إمساك الروبوت إلى التحرك بطريقة معينة" ، فمن المنطقي أن المحول يمكن أن يولد إجراءات متماسكة تتماشى مع هذا المدخل.

وكان أحد الجوانب الحاسمة قيد التقييم هو القدرة على تنفيذ مهام جديدة لم تتم تغطيتها أثناء التدريب. يمكن اختبار ذلك بعدة طرق متميزة:

1) كائنات غير مألوفة: هل يمكن للنموذج تكرار مهمة عند تقديمه إلى أشياء لم يتم التدريب عليها؟ يتوقف النجاح في هذا الجانب على تحويل التغذية المرئية من الكاميرا إلى ناقل ، يمكن لنموذج اللغة تفسيره. يجب أن يكون النموذج بعد ذلك قادرًا على تمييز معناه ، وربط المصطلح بنظيره في العالم الحقيقي ، ومن ثم توجيه الذراع الآلية للعمل وفقًا لذلك.

2) خلفيات مختلفة: كيف يستجيب النموذج عندما تتكون غالبية الخلاصة المرئية من عناصر جديدة لأن خلفية موقع المهمة قد تم تغييرها بالكامل؟ على سبيل المثال ، تغيير في الجداول أو حتى تغيير في ظروف الإضاءة.

3) بيئات متنوعة: لتمديد النقطة السابقة ، ماذا لو كان الموقع بأكمله مختلفًا؟

بالنسبة للبشر ، تبدو هذه السيناريوهات مباشرة - وبطبيعة الحال ، إذا تمكن شخص ما من التخلص من علبة في غرفته ، فيجب أن يكون قادرًا على القيام بذلك في الهواء الطلق أيضًا ، أليس كذلك؟ (في ملاحظة جانبية ، لاحظت وجود عدد قليل من الأفراد في المتنزهات يعانون من هذه المهمة التي تبدو بسيطة). ومع ذلك ، بالنسبة للآلات ، هذه تحديات لا يزال يتعين معالجتها.

تكشف البيانات الرسومية أن نموذج RT-2 يتفوق على بعض أسلافه عندما يتعلق الأمر بالتكيف مع هذه الظروف الجديدة. ينبع هذا التفوق إلى حد كبير من الاستفادة من نموذج اللغة الموسع ، الذي تم إثرائه من خلال عدد كبير من النصوص التي عالجها خلال مرحلة التدريب.

أحد القيود التي أبرزها الباحثون هو عدم قدرة النموذج على التكيف مع مهارات جديدة تمامًا. على سبيل المثال ، لن يفهم رفع شيء من جانبه الأيسر أو الأيمن إذا لم يكن هذا جزءًا من تدريبه. في المقابل ، نماذج اللغة مثل ChatGPT قد اجتازت هذه العقبة بسهولة إلى حد ما. من خلال معالجة كميات هائلة من البيانات عبر عدد لا يحصى من المهام ، يمكن لهذه النماذج فك الشفرات بسرعة والتصرف بناءً على الطلبات الجديدة ، حتى لو لم تواجهها من قبل.

تقليديا ، تعمل الروبوتات باستخدام مجموعات من الأنظمة المعقدة. في هذه الإعدادات ، غالبًا ما تتفاعل أنظمة التفكير عالية المستوى وأنظمة المعالجة التأسيسية دون اتصال فعال ، أشبه بلعب لعبة من "هاتف مكسور". تخيل تصورًا لفعل ما عقليًا ، ثم تحتاج إلى نقله إلى جسدك للتنفيذ. يبسط نموذج RT-2 الذي تم تقديمه حديثًا هذه العملية. إنه يمكّن نموذج لغة واحد من إجراء تفكير متطور مع إرسال أوامر مباشرة إلى الروبوت. إنه يوضح أنه مع الحد الأدنى من بيانات التدريب ، يمكن للروبوت تنفيذ الأنشطة التي لم يتعلمها صراحة.

على سبيل المثال ، لتمكين الأنظمة القديمة من التخلص من النفايات ، كانت تتطلب تدريبًا محددًا لتحديد النفايات والتقاطها والتخلص منها. في المقابل ، تمتلك RT-2 بالفعل فهمًا أساسيًا للنفايات ، ويمكنها التعرف عليها دون تدريب مستهدف ، ويمكن التخلص منها حتى بدون تعليمات مسبقة حول الإجراء. ضع في اعتبارك السؤال الدقيق ، "ما الذي يشكل النفايات؟" هذا مفهوم صعب لإضفاء الطابع الرسمي. ينتقل كيس الرقائق أو قشر الموز من كونه عنصرًا إلى نفايات ما بعد الاستهلاك. لا تحتاج مثل هذه التعقيدات إلى شرح صريح أو تدريب منفصل ؛ تقوم RT-2 بفك شفرتها باستخدام فهمها المتأصل وتتصرف وفقًا لذلك.

إليك سبب أهمية هذا التقدم وتداعياته المستقبلية:

  • تعمل نماذج اللغة ، مثل RT-2 ، كمحركات معرفية شاملة. قدرتها على تعميم ونقل المعرفة عبر المجالات تعني أنها قابلة للتكيف مع التطبيقات المتنوعة.
  • لم يستخدم الباحثون عن عمد النماذج الأكثر تقدمًا في دراستهم، بهدف ضمان استجابة كل نموذج خلال ثانية واحدة (أي تردد عمل آلي لا يقل عن 1 هرتز). من الناحية النظرية، دمج نموذج مثل GPT-4 و نموذج بصري متفوق يمكن أن تسفر عن نتائج أكثر إقناعًا.
  • البيانات الشاملة لا تزال متفرقة. ومع ذلك ، من المتوقع أن يستغرق الانتقال من الحالة الحالية إلى مجموعة بيانات شاملة ، تتراوح من خطوط إنتاج المصنع إلى الأعمال المنزلية ، حوالي عام إلى عامين. هذا تقدير مبدئي ، لذلك قد يقدم الخبراء في هذا المجال مزيدًا من الدقة. وسيؤدي تدفق البيانات هذا حتما إلى تحقيق تقدم كبير.
  • بينما تم تطوير RT-2 باستخدام تقنية محددة ، توجد العديد من الطرق الأخرى. من المحتمل أن يحمل المستقبل اندماجًا لهذه المنهجيات أكثر تعزيز القدرات الروبوتية. يمكن أن يتضمن أحد الأساليب المرتقبة تدريب الروبوتات باستخدام مقاطع فيديو للأنشطة البشرية. ليست هناك حاجة للتسجيلات الحصرية - توفر منصات مثل TikTok و YouTube مستودعًا واسعًا لمثل هذا المحتوى.

اقرأ المزيد عن الذكاء الاصطناعي:

إخلاء المسئولية

تتماشى مع المبادئ التوجيهية لمشروع الثقةيرجى ملاحظة أن المعلومات المقدمة في هذه الصفحة ليس المقصود منها ولا ينبغي تفسيرها على أنها نصيحة قانونية أو ضريبية أو استثمارية أو مالية أو أي شكل آخر من أشكال المشورة. من المهم أن تستثمر فقط ما يمكنك تحمل خسارته وأن تطلب مشورة مالية مستقلة إذا كانت لديك أي شكوك. لمزيد من المعلومات، نقترح الرجوع إلى الشروط والأحكام بالإضافة إلى صفحات المساعدة والدعم المقدمة من جهة الإصدار أو المعلن. MetaversePost تلتزم بتقارير دقيقة وغير متحيزة، ولكن ظروف السوق عرضة للتغيير دون إشعار.

نبذة عن الكاتب

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

المزيد من المقالات
دامير يالالوف
دامير يالالوف

دامير هو قائد الفريق ومدير المنتج والمحرر في Metaverse Post، تغطي موضوعات مثل AI / ML و AGI و LLMs و Metaverse و Web3-حقول ذات صله. تجذب مقالاته جمهورًا هائلاً يزيد عن مليون مستخدم كل شهر. يبدو أنه خبير يتمتع بخبرة 10 سنوات في تحسين محركات البحث والتسويق الرقمي. تم ذكر دامير في Mashable، Wired، Cointelegraphو The New Yorker و Inside.com و Entrepreneur و BeInCrypto ومنشورات أخرى. يسافر بين الإمارات العربية المتحدة وتركيا وروسيا ورابطة الدول المستقلة كبدو رقمي. حصل دامير على درجة البكالوريوس في الفيزياء ، والذي يعتقد أنه منحه مهارات التفكير النقدي اللازمة للنجاح في المشهد المتغير باستمرار للإنترنت. 

Hot Stories
اشترك في صحيفتنا الإخبارية.
آخـر الأخبار

تنمو الشهية المؤسسية تجاه صناديق الاستثمار المتداولة في البيتكوين وسط التقلبات

تكشف الإفصاحات من خلال ملفات 13F عن مستثمرين مؤسسيين بارزين يشتغلون بصناديق الاستثمار المتداولة في البيتكوين، مما يؤكد القبول المتزايد لـ ...

لمعرفة المزيد

وصول يوم النطق بالحكم: مصير تشيكوسلوفاكيا معلق في الميزان بينما تنظر المحكمة الأمريكية في التماس وزارة العدل

ومن المقرر أن يواجه Changpeng Zhao الحكم في محكمة أمريكية في سياتل اليوم.

لمعرفة المزيد
انضم إلى مجتمعنا التقني المبتكر
تفاصيل أكثر
المزيد
تتعاون Espresso Systems مع Polygon Labs لتطوير طبقة AggLayer لتحسين إمكانية التشغيل البيني المجمع
باقة الأعمال تقرير الأخبار تكنولوجيا
تتعاون Espresso Systems مع Polygon Labs لتطوير طبقة AggLayer لتحسين إمكانية التشغيل البيني المجمع
9 مايو 2024
بروتوكول البنية التحتية المدعوم من ZKP ZKBase يكشف عن خارطة الطريق ويخطط لإطلاق Testnet في مايو
تقرير الأخبار تكنولوجيا
بروتوكول البنية التحتية المدعوم من ZKP ZKBase يكشف عن خارطة الطريق ويخطط لإطلاق Testnet في مايو
9 مايو 2024
BLOCKCHANCE وCONF3RENCE يتحدان من أجل أكبر حدث في ألمانيا Web3 مؤتمر في دورتموند
باقة الأعمال الأسواق تطبيقات الكمبيوتر قصص ومراجعات تكنولوجيا
BLOCKCHANCE وCONF3RENCE يتحدان من أجل أكبر حدث في ألمانيا Web3 مؤتمر في دورتموند
9 مايو 2024
يتم إطلاق NuLink على Bybit Web3 منصة ايدو. تمتد مرحلة الاشتراك حتى 13 مايو
الأسواق تقرير الأخبار تكنولوجيا
يتم إطلاق NuLink على Bybit Web3 منصة ايدو. تمتد مرحلة الاشتراك حتى 13 مايو
9 مايو 2024
CRYPTOMERIA LABS PTE. المحدودة.