اوت 01، 2023

Is GPT-4 در مورد سوپرشارژ رباتیک؟ چرا RT-2 همه چیز را تغییر می دهد؟

تاریخ انتشار: 01 اوت 2023 ساعت 3:58 صبح بروزرسانی: 01 اوت 2023 ساعت 3:58 صبح

ویرایش و بررسی شده: 01 اوت 2023 ساعت 3:58 صبح

به طور خلاصه

Google DeepMind برنامه های کاربردی مدل زبان بینایی را برای کنترل رباتیک سرتاسر، با تمرکز بر توانایی آنها در تعمیم و انتقال دانش در سراسر حوزه ها.

مدل RT-2 که برای تولید توالی هایی با قابلیت رمزگذاری حجم وسیعی از اطلاعات طراحی شده است، در سناریوهای مختلفی از جمله اشیاء ناآشنا، پس زمینه های مختلف و محیط های متنوع آزمایش شده است.

مدل RT-2 در انطباق با شرایط جدید از برخی از پیشینیان خود بهتر عمل می کند که عمدتاً به دلیل مدل زبان گسترده آن است.

Google DeepMind برنامه های کاربردی مدل زبان بینایی را بررسی کرد، با تمرکز بر پتانسیل آنها برای کنترل رباتیک سرتاسر. این تحقیق به دنبال تعیین این بود که آیا این مدل‌ها قادر به تعمیم گسترده هستند یا خیر. علاوه بر این، بررسی کرد که آیا عملکردهای شناختی خاصی، مانند استدلال و برنامه ریزی، که اغلب با مدل های زبانی گسترده مرتبط هستند، می توانند در این زمینه ظاهر شوند یا خیر.

Is GPT-4 در مورد سوپرشارژ رباتیک؟ چرا RT-2 همه چیز را تغییر می دهد؟ — اعتبار: Metaverse Post / Stable Diffusion

فرض اساسی پشت این کاوش ذاتاً با ویژگی‌های مدل‌های زبان بزرگ (LLM) مرتبط است. چنین مدل ها برای تولید طراحی شده اند هر دنباله ای که بتواند طیف وسیعی از اطلاعات را رمزگذاری کند. این نه تنها شامل زبان رایج یا کد برنامه نویسی مانند پایتون، بلکه شامل دستورات خاص نیز می شود که می تواند اقدامات روباتیک را هدایت کند.

برای درک این موضوع، توانایی مدل برای درک و ترجمه توالی رشته های خاص به دستورات روباتیک قابل اجرا را در نظر بگیرید. به عنوان مثال، یک رشته تولید شده مانند "1 128 91 241 5 101 127 217" را می توان به روش زیر رمزگشایی کرد:

رقم اولیه، یک، نشان می دهد که کار هنوز در حال انجام است و به اتمام نرسیده است.
سه گانه بعدی اعداد، 128-91-241، یک تغییر نسبی و نرمال شده در سه بعد فضا را مشخص می کند.
مجموعه پایانی، 101-127-217، درجه چرخش بخش بازوی عملکردی ربات را مشخص می کند.

چنین پیکربندی ربات را فعال می کند برای تغییر حالت خود در شش درجه آزادی. ترسیم یک قرینه، درست به عنوان مدل های زبان ایده ها و مفاهیم کلی را از داده های متنی گسترده در اینترنت جذب می کند، مدل RT-2 دانش را از اطلاعات مبتنی بر وب استخراج می کند تا اقدامات روباتیک را هدایت کند.

پیامدهای بالقوه این امر قابل توجه است. اگر مدلی در معرض مجموعه‌ای از مسیرها قرار گیرد که اساساً نشان می‌دهد، «برای دستیابی به یک نتیجه خاص، مکانیسم گرفتن ربات باید به شیوه‌ای خاص حرکت کند»، پس منطقی است که ترانسفورماتور می‌تواند اقدامات منسجمی را مطابق با این ورودی

یکی از جنبه های مهم در حال ارزیابی، ظرفیت بود وظایف جدیدی را اجرا کنید که در طول آموزش پوشش داده نشده اند. این را می توان به چند روش مجزا آزمایش کرد:

1) اشیاء ناآشنا: آیا مدل وقتی با اشیایی که روی آن آموزش ندیده معرفی می شود، می تواند یک کار را تکرار کند؟ موفقیت در این جنبه منوط به تبدیل فید بصری از دوربین به یک برداری است که مدل زبان می تواند آن را تفسیر کند. سپس مدل باید بتواند معنای آن را تشخیص دهد، یک اصطلاح را با همتای واقعی خود پیوند دهد و متعاقباً بازوی رباتیک را هدایت کند تا مطابق با آن عمل کند.

2) زمینه های مختلف: وقتی اکثر فید بصری از عناصر جدید تشکیل شده است، مدل چگونه پاسخ می دهد زیرا پس زمینه مکان کار کاملاً تغییر کرده است؟ به عنوان مثال، تغییر در جداول یا حتی تغییر در شرایط نور.

3) محیط های متنوع: با بسط دادن نکته قبلی، اگر کل مکان متفاوت باشد چه؟

برای انسان ها، این سناریوها ساده به نظر می رسند - به طور طبیعی، اگر کسی بتواند قوطی را در اتاق خود دور بیندازد، باید بتواند در فضای باز نیز این کار را انجام دهد، درست است؟ (در یک یادداشت جانبی، من چند نفر را در پارک ها مشاهده کرده ام که با این کار به ظاهر ساده دست و پنجه نرم می کنند). با این حال، برای ماشین‌آلات، اینها چالش‌هایی هستند که باید مورد توجه قرار گیرند.

داده های گرافیکی نشان می دهد که مدل RT-2 در سازگاری با این شرایط جدید از برخی از مدل های قبلی خود بهتر عمل می کند. این برتری تا حد زیادی ناشی از استفاده از یک مدل زبانی گسترده است که با انبوهی از متون که در مرحله آموزش پردازش کرده است، غنی شده است.

یکی از محدودیت‌هایی که توسط محققان برجسته شده است، ناتوانی مدل در سازگاری با مهارت‌های کاملاً جدید است. به عنوان مثال، اگر این بخشی از آموزش نبوده باشد، بلند کردن یک جسم از سمت چپ یا راست آن را درک نمی کند. در مقابل، مدل های زبان مانند ChatGPT این مانع را نسبتاً بدون زحمت پشت سر گذاشته اند. این مدل‌ها با پردازش حجم وسیعی از داده‌ها در بسیاری از وظایف، می‌توانند به سرعت درخواست‌های جدید را رمزگشایی کرده و بر اساس آن‌ها عمل کنند، حتی اگر قبلاً با آن‌ها مواجه نشده باشند.

به طور سنتی، روبات ها با استفاده از ترکیبی از سیستم های پیچیده عمل می کنند. در این تنظیمات، سیستم‌های استدلال سطح بالاتر و سیستم‌های دستکاری پایه اغلب بدون ارتباط کارآمد با هم تعامل داشتند. شبیه بازی کردن از "تلفن خراب". تصور کنید که یک عمل را به صورت ذهنی تصور کنید، سپس باید آن را برای اجرا به بدن خود منتقل کنید. مدل تازه معرفی شده RT-2 این فرآیند را ساده می کند. این یک مدل زبان واحد را برای انجام استدلال پیچیده و در عین حال ارسال دستورات مستقیم به ربات توانمند می کند. این نشان می‌دهد که با حداقل داده‌های آموزشی، ربات می‌تواند فعالیت‌هایی را انجام دهد که به صراحت یاد نگرفته است.

برای مثال، برای اینکه سیستم‌های قدیمی‌تر بتوانند زباله‌ها را دور بریزند، به آموزش خاصی برای شناسایی، جمع‌آوری و دفع زباله نیاز داشتند. در مقابل، RT-2 در حال حاضر دارای درک اساسی از زباله است، می تواند آن را بدون آموزش هدفمند تشخیص دهد، و می تواند آن را حتی بدون دستورالعمل قبلی در مورد عمل دفع کند. این سوال ظریف را در نظر بگیرید، "ضایعات چیست؟" این یک مفهوم چالش برانگیز برای رسمی کردن است. کیسه چیپس یا پوست موز بعد از مصرف از یک اقلام به ضایعات تبدیل می شود. چنین پیچیدگی هایی نیازی به توضیح صریح یا آموزش جداگانه ندارند. RT-2 آنها را با استفاده از درک ذاتی خود رمزگشایی می کند و بر اساس آن عمل می کند.

در اینجا دلیل مهم بودن این پیشرفت و پیامدهای آینده آن است:

مدل های زبان، مانند RT-2، به عنوان موتورهای شناختی فراگیر عمل می کنند. توانایی آنها در تعمیم و انتقال دانش در دامنه ها به این معنی است که آنها با برنامه های کاربردی متنوع سازگار هستند.
محققان عمداً از پیشرفته‌ترین مدل‌ها برای مطالعه خود استفاده نکردند و هدفشان این بود که اطمینان حاصل شود که هر مدل در یک ثانیه پاسخ می‌دهد (به معنی فرکانس عمل رباتیک حداقل 1 هرتز). به طور فرضی، ادغام یک مدل مانند GPT-4 و یک مدل بصری برتر می تواند نتایج قانع کننده تری به همراه داشته باشد.
داده های جامع هنوز پراکنده است. با این حال، انتقال از وضعیت فعلی به مجموعه داده‌های جامع، از خطوط تولید کارخانه تا کارهای خانگی، حدود یک تا دو سال طول می‌کشد. این یک تخمین آزمایشی است، بنابراین کارشناسان در این زمینه ممکن است دقت بیشتری ارائه دهند. این هجوم داده ها به ناچار پیشرفت های قابل توجهی را به همراه خواهد داشت.
در حالی که RT-2 با استفاده از یک تکنیک خاص توسعه یافته است، روش های متعدد دیگری نیز وجود دارد. در آینده احتمالاً تلفیقی از این روش‌ها وجود دارد افزایش قابلیت های رباتیک. یک رویکرد آینده نگر می تواند شامل آموزش ربات ها با استفاده از فیلم های فعالیت های انسانی باشد. نیازی به ضبط انحصاری نیست – پلتفرم هایی مانند TikTok و YouTube مخزن وسیعی از چنین محتوایی را ارائه می دهند.

درباره هوش مصنوعی بیشتر بخوانید:

برچسب ها:

سلب مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

Damir رهبر تیم، مدیر محصول و سردبیر در است Metaverse Post، موضوعاتی مانند AI/ML، AGI، LLMs، Metaverse و Web3- زمینه های مرتبط مقالات او هر ماه مخاطبان زیادی از بیش از یک میلیون کاربر را جذب می کند. به نظر می رسد او یک متخصص با 10 سال تجربه در سئو و بازاریابی دیجیتال است. دمیر در Mashable, Wired, ذکر شده است. Cointelegraph، نیویورکر، Inside.com، Entrepreneur، BeInCrypto، و انتشارات دیگر. او بین امارات متحده عربی، ترکیه، روسیه و کشورهای مستقل مشترک المنافع به عنوان یک عشایر دیجیتال سفر می کند. دمیر مدرک لیسانس خود را در فیزیک گرفت که به اعتقاد او مهارت های تفکر انتقادی لازم برای موفقیت در چشم انداز دائماً در حال تغییر اینترنت را به او داده است.

مقالات بیشتر

دامیر یالالوف