Август КСНУМКС, КСНУМКС

Is GPT-4 Спремате се да напуните роботику? Зашто РТ-2 мења све

Објављено: 01. августа 2023. у 3:58 Ажурирано: 01. августа 2023. у 3:58

Измењено и проверено: 01. август 2023. у 3:58

Укратко

Гоогле ДеепМинд је развио апликације за моделе визије за роботска контрола од краја до краја, фокусирајући се на њихову способност да генерализују и пренесу знање преко домена.

РТ-2 модел, дизајниран да генерише секвенце способне да кодирају огромне количине информација, тестиран је у различитим сценаријима, укључујући непознате објекте, различиту позадину и различита окружења.

Модел РТ-2 надмашује неке од својих претходника у прилагођавању новим условима, углавном због свог експанзивног језичког модела.

Гоогле ДеепМинд је истраживао апликације за моделе визије, фокусирајући се на њихов потенцијал за роботску контролу од краја до краја. Ово истраживање је покушало да утврди да ли су ови модели способни за широку генерализацију. Штавише, истражило се да ли би се у овом контексту могле појавити одређене когнитивне функције, као што су резоновање и планирање, које се често повезују са експанзивним језичким моделима.

Is GPT-4 Спремате се да напуните роботику? Зашто РТ-2 мења све — Кредит: Metaverse Post / Stable Diffusion

Основна премиса иза овог истраживања суштински је повезана са карактеристикама великих језичких модела (ЛЛМ). Такве модели су дизајнирани да генеришу било који низ који може да кодира широк спектар информација. Ово укључује не само заједнички језик или програмски код као што је Питхон, већ и специфичне команде који може да води роботске акције.

Да бисте ово ставили у перспективу, размотрите способност модела да разуме и преведе специфичне секвенце низова у роботске команде које се могу применити. Као илустрација, генерисани стринг као што је „1 128 91 241 5 101 127 217“ може се декодирати на следећи начин:

Почетна цифра, један, означава да је задатак још увек у току и да није завршен.
Следећа тријада бројева, 128-91-241, означава релативан и нормализован помак у три димензије простора.
Закључни сет, 101-127-217, тачно показује степен ротације сегмента функционалне руке робота.

Таква конфигурација омогућава роботу да модификује своје стање преко шест степени слободе. Повлачење паралеле, баш као језички модели асимилирајући опште идеје и концепте из огромних текстуалних података на интернету, РТ-2 модел извлачи знање из информација заснованих на вебу како би водио роботске акције.

Потенцијалне импликације овога су значајне. Ако је модел изложен одабраном скупу путања које у суштини указују на „да би се постигао одређени резултат, механизам за хватање робота треба да се креће на специфичан начин“, онда је логично да би трансформатор могао да генерише кохерентне акције у складу са овај улаз.

Кључни аспект који се евалуирао био је капацитет да извршавају нове задатке који нису обухваћени током обуке. Ово се може тестирати на неколико различитих начина:

1) Непознати објекти: Може ли модел да реплицира задатак када се упозна са објектима на којима није обучен? Успех у овом аспекту зависи од претварања визуелног сигнала из камере у вектор, који језички модел може да протумачи. Модел би тада требало да буде у стању да разазна његово значење, повеже термин са његовим колегом у стварном свету и потом усмери роботску руку да делује у складу са тим.

2) Различите позадине: Како модел реагује када се већина визуелног фееда састоји од нових елемената јер је позадина локације задатка у потпуности измењена? На пример, промена у табели или чак промена услова осветљења.

3) Вариед Енвиронментс: Проширујући претходну тачку, шта ако је цела локација другачија?

За људе, ови сценарији изгледају једноставно – наравно, ако неко може да одбаци конзерву у својој соби, требало би да то може да уради и на отвореном, зар не? (Уз напомену, посматрао сам неколико појединаца у парковима како се боре са овим наизглед једноставним задатком). Ипак, што се тиче машина, ово су изазови који тек треба да се реше.

Графички подаци откривају да модел РТ-2 надмашује неке од својих претходника када је у питању прилагођавање овим новим условима. Ова супериорност у великој мери произилази из употребе експанзивног језичког модела, обогаћеног мноштвом текстова које је обрадио током своје фазе обуке.

Једно ограничење које су истакли истраживачи је неспособност модела да се прилагоди потпуно новим вештинама. На пример, не би разумео подизање предмета са леве или десне стране ако то није био део његове обуке. Насупрот томе, језички модели попут ChatGPT прешли ову препреку прилично без напора. Обрађујући огромну количину података кроз безброј задатака, ови модели могу брзо да дешифрују и реагују на нове захтеве, чак и ако се са њима никада раније нису сусрели.

Традиционално, роботи су радили користећи комбинације сложених система. У овим поставкама, системи расуђивања вишег нивоа и основни системи манипулације често су били у интеракцији без ефикасне комуникације, слично игрању игре од „поквареног телефона“. Замислите да ментално концептуализујете радњу, а затим морате да је пренесете свом телу за извршење. Новоуведени РТ-2 модел поједностављује овај процес. Он омогућава моделу једног језика да предузме софистицирано резоновање, а истовремено шаље директне команде роботу. То показује да са минималним подацима о обуци, робот може да обавља активности које није експлицитно научио.

На пример, да би старији системи омогућили да одлажу отпад, потребна им је посебна обука за идентификацију, преузимање и одлагање отпада. Насупрот томе, РТ-2 већ поседује фундаментално разумевање отпада, може га препознати без циљане обуке и може га одложити чак и без претходног упутства о акцији. Размотрите нијансирано питање „шта чини отпад?“ Ово је изазован концепт за формализацију. Кеса за чипс или кора од банане прелази из предмета у отпад након конзумирања. Такве замршености не захтевају експлицитно објашњење или посебну обуку; РТ-2 их дешифрује користећи своје инхерентно разумевање и делује у складу са тим.

Ево зашто је овај напредак кључан и његове будуће импликације:

Језички модели, попут РТ-2, функционишу као свеобухватни когнитивни мотори. Њихова способност да генерализују и пренесу знање преко домена значи да су прилагодљиви различитим апликацијама.
Истраживачи намерно нису користили најнапредније моделе за своје истраживање, са циљем да осигурају да сваки модел реагује у року од једне секунде (што значи фреквенцију роботске акције од најмање 1 Херца). Хипотетички, интегришући модел као GPT-4 и а супериорни визуелни модел може дати још убедљивије резултате.
Свеобухватни подаци су још увек ретки. Међутим, предвиђа се да ће прелазак са тренутног стања на холистички скуп података, у распону од фабричких производних линија до кућних послова, трајати око годину до две. Ово је оквирна процена, тако да стручњаци у овој области могу понудити већу прецизност. Овај прилив података ће неизбежно довести до значајног напретка.
Док је РТ-2 развијен коришћењем специфичне технике, постоје бројне друге методе. Даље, будућност вероватно садржи фузију ових методологија побољшање роботских способности. Један перспективни приступ могао би укључивати обуку робота користећи видео снимке људских активности. Нема потребе за ексклузивним снимцима – платформе као што су ТикТок и ИоуТубе нуде огромно складиште таквог садржаја.

Прочитајте више о АИ:

Ознаке:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.

više чланака

Дамир Иалалов