Август 01, 2023

Is GPT-4 Предстои ли Supercharge Robotics? Защо RT-2 променя всичко

Публикувано: 01 август 2023 г. в 3:58 ч. Актуализирано: 01 август 2023 г. в 3:58 ч.

Редактирано и проверено на фактите: 01 август 2023 г. в 3:58 ч

Накратко

Google DeepMind разработи приложения за модели на визуален език за роботизирано управление от край до край, като се фокусира върху способността им да обобщават и прехвърлят знания в различни области.

Моделът RT-2, предназначен да генерира последователности, способни да кодират огромни количества информация, е тестван в различни сценарии, включително непознати обекти, различни среди и различни среди.

Моделът RT-2 превъзхожда някои от своите предшественици в адаптирането към новите условия, до голяма степен поради неговия експанзивен езиков модел.

Google DeepMind проучи приложенията за модели на визуален език, като се фокусира върху потенциала им за цялостен роботизиран контрол. Това разследване се опита да определи дали тези модели са способни на широко обобщение. Освен това, той изследва дали някои когнитивни функции, като разсъждение и планиране, които често се свързват с експанзивни езикови модели, могат да се появят в този контекст.

Is GPT-4 Предстои ли Supercharge Robotics? Защо RT-2 променя всичко — Credit: Metaverse Post / Stable Diffusion

Основната предпоставка зад това изследване е неразривно свързана с характеристиките на големите езикови модели (LLM). Такива моделите са предназначени да генерират всяка последователност, способна да кодира широк набор от информация. Това включва не само общ език или програмен код като Python, но и специфични команди които могат да ръководят роботизирани действия.

За да поставите това в перспектива, помислете за способността на модела да разбира и превежда специфични последователности от низове в действащи роботизирани команди. Като илюстрация, генериран низ като „1 128 91 241 5 101 127 217“ може да бъде декодиран по следния начин:

Първоначалната цифра, едно, означава, че задачата все още е в ход и не е достигнала до завършване.
Следващата триада от числа, 128-91-241, обозначава относително и нормализирано изместване в трите измерения на пространството.
Заключителният набор, 101-127-217, определя степента на въртене на функционалния сегмент на ръката на робота.

Такава конфигурация позволява на робота да променя състоянието си в шест степени на свобода. Правейки паралел, точно както езикови модели асимилира общи идеи и концепции от обширни текстови данни в интернет, моделът RT-2 извлича знания от уеб-базирана информация, за да ръководи роботизираните действия.

Потенциалните последици от това са значителни. Ако даден модел е изложен на подбран набор от траектории, които по същество показват, че „за постигане на определен резултат, механизмът за захващане на робота трябва да се движи по специфичен начин“, тогава е логично трансформаторът да генерира съгласувани действия в съответствие с този вход.

Важен аспект, който се оценява, беше способността за изпълняват нови задачи, които не са обхванати по време на обучението. Това може да се тества по няколко различни начина:

1) Непознати обекти: Може ли моделът да възпроизведе задача, когато бъде представен на обекти, върху които не е бил обучен? Успехът в този аспект зависи от преобразуването на визуалния поток от камерата във вектор, който езиковият модел може да интерпретира. След това моделът трябва да може да разпознае значението му, да свърже термин с неговия аналог от реалния свят и впоследствие да насочи роботизираната ръка да действа по съответния начин.

2) Различни фонове: Как реагира моделът, когато по-голямата част от визуалната емисия се състои от нови елементи, тъй като фонът на местоположението на задачата е изцяло променен? Например промяна в таблиците или дори промяна в условията на осветление.

3) Разнообразни среди: Разширявайки предишната точка, какво ще стане, ако самото местоположение е различно?

За хората тези сценарии изглеждат прости – естествено, ако някой може да изхвърли кутия в стаята си, трябва да може да го направи и на открито, нали? (Като странична бележка, наблюдавах няколко индивида в паркове, които се борят с тази на пръв поглед проста задача). И все пак за машините това са предизвикателства, които предстои да бъдат решени.

Графичните данни разкриват, че моделът RT-2 превъзхожда някои от своите предшественици, когато става въпрос за адаптиране към тези нови условия. Това превъзходство до голяма степен произтича от използването на експанзивен езиков модел, обогатен от множеството текстове, които е обработил по време на своята фаза на обучение.

Едно ограничение, подчертано от изследователите, е неспособността на модела да се адаптира към изцяло нови умения. Например, то не би разбрало повдигането на предмет от лявата или дясната му страна, ако това не е било част от обучението му. За разлика от тях езиковите модели като ChatGPT са преодолели това препятствие доста без усилие. Чрез обработката на огромни количества данни в безброй задачи, тези модели могат бързо да дешифрират и да реагират на нови заявки, дори ако никога преди не са се сблъсквали с тях.

Традиционно роботите работят с помощта на комбинации от сложни системи. В тези настройки системите за разсъждение от по-високо ниво и основополагащите системи за манипулиране често си взаимодействат без ефективна комуникация, подобно на игра на игра на „развален телефон“. Представете си, че мислено концептуализирате действие, след което трябва да го предадете на тялото си за изпълнение. Нововъведеният модел RT-2 рационализира този процес. Той дава възможност на един езиков модел да предприеме сложни разсъждения, като същевременно изпраща директни команди към робота. Той демонстрира, че с минимални данни за обучение роботът може да извършва дейности, които не е научил изрично.

Например, за да могат по-старите системи да изхвърлят отпадъците, те изискват специално обучение за идентифициране, събиране и изхвърляне на боклука. За разлика от това, RT-2 вече притежава основно разбиране за отпадъците, може да ги разпознае без целенасочено обучение и може да ги изхвърли дори без предварителна инструкция за действието. Помислете за нюансирания въпрос „какво представлява отпадък?“ Това е предизвикателна концепция за формализиране. Торбичка за чипс или бананова кора се превръща от артикул в отпадък след консумация. Такива тънкости не се нуждаят от изрично обяснение или отделно обучение; RT-2 ги дешифрира, използвайки присъщото си разбиране и действа съответно.

Ето защо този напредък е основен и неговите бъдещи последици:

Езиковите модели, като RT-2, функционират като всеобхватни когнитивни двигатели. Тяхната способност да обобщават и прехвърлят знания между домейни означава, че са адаптивни към различни приложения.
Изследователите умишлено не са използвали най-модерните модели за своето изследване, като целят да гарантират, че всеки модел реагира в рамките на секунда (което означава честота на роботизирано действие от най-малко 1 Hertz). Хипотетично, интегриране на модел като GPT-4 и превъзходен визуален модел може да доведе до още по-убедителни резултати.
Изчерпателните данни все още са оскъдни. Въпреки това преходът от текущото състояние към холистичен набор от данни, вариращ от фабрични производствени линии до домакинска работа, се предвижда да отнеме около една до две години. Това е ориентировъчна оценка, така че експертите в областта може да предложат повече точност. Този приток на данни неизбежно ще доведе до значителен напредък.
Въпреки че RT-2 е разработен с помощта на специфична техника, съществуват множество други методи. Бъдещето вероятно носи сливане на тези методологии подобряване на роботизираните възможности. Един перспективен подход може да включва обучение на роботи с помощта на видеоклипове на човешки дейности. Няма нужда от изключителни записи – платформи като TikTok и YouTube предлагат огромно хранилище на такова съдържание.

Прочетете повече за AI:

Tags:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.

Още статии

Дамир Ялалов