August 01, 2023

Is GPT-4 Kas kavatsete robootikat üle laadida? Miks RT-2 muudab kõike?

Avaldatud: 01. august 2023 kell 3:58 Värskendatud: 01. august 2023 kell 3:58

Muudetud ja faktidega kontrollitud: 01. august 2023 kell 3

Põgusalt

Google DeepMind on välja töötanud nägemiskeele mudelirakendused otsast lõpuni robotjuhtimine, keskendudes nende võimele teadmisi üldistada ja valdkondade vahel üle kanda.

RT-2 mudelit, mis on loodud suure hulga teabe kodeerimiseks võimeliste jadade genereerimiseks, on testitud erinevates stsenaariumides, sealhulgas võõraste objektide, erineva tausta ja mitmekesiste keskkondade puhul.

RT-2 mudel ületab mõningaid oma eelkäijaid uute tingimustega kohanemisel, seda suuresti tänu oma ekspansiivsele keelemudelile.

Google DeepMind uuris nägemiskeele mudelirakendusi, keskendudes nende täielikule robotjuhtimise potentsiaalile. Selle uurimisega püüti kindlaks teha, kas need mudelid on suutelised üldistama. Lisaks uuriti, kas selles kontekstis võivad ilmneda teatud kognitiivsed funktsioonid, nagu arutluskäik ja planeerimine, mida sageli seostatakse ekspansiivsete keelemudelitega.

Is GPT-4 Kas kavatsete robootikat üle laadida? Miks RT-2 muudab kõike? — krediit: Metaverse Post / Stable Diffusion

Selle uurimise põhieeldus on olemuslikult seotud suurte keelemudelite (LLM) omadustega. Sellised mudelid on loodud genereerima mis tahes jada, mis on võimeline kodeerima suurt hulka teavet. See ei hõlma mitte ainult tavalist keelt või programmeerimiskoodi nagu Python, vaid ka konkreetseid käske mis võivad juhtida robotite tegevust.

Selle perspektiivi vaatamiseks kaaluge mudeli võimet mõista ja tõlkida konkreetseid stringijadasid kasutatavateks robotkäskudeks. Näitena saab genereeritud stringi, näiteks "1 128 91 241 5 101 127 217", dekodeerida järgmisel viisil.

Esialgne number üks tähendab, et ülesanne on veel pooleli ega ole lõpetatud.
Järgnev numbrite kolmik, 128-91-241, tähistab suhtelist ja normaliseeritud nihet ruumi kolme mõõtme vahel.
Lõppkomplekt 101-127-217 määrab täpselt roboti funktsionaalse käe segmendi pöörlemisastme.

Selline konfiguratsioon lubab robotit muuta selle olekut kuue vabadusastme vahel. Paralleeli tõmbamine, just nagu keelemudelid Assimileerida üldisi ideid ja kontseptsioone tohututest Internetis leiduvatest tekstiandmetest, ammutab RT-2 mudel teadmisi veebipõhisest teabest, et juhtida robotite tegevusi.

Selle võimalikud tagajärjed on märkimisväärsed. Kui mudel puutub kokku kureeritud trajektooride komplektiga, mis sisuliselt viitavad sellele, et "teatud tulemuse saavutamiseks peab roboti haardemehhanism liikuma konkreetsel viisil", siis on loogiline, et trafo võib luua sidusaid toiminguid kooskõlas see sisend.

Hindamisel oli otsustav aspekt suutlikkus täita uudseid ülesandeid, mida koolituse ajal ei käsitleta. Seda saab testida mitmel erineval viisil:

1) Tundmatud objektid: Kas mudel suudab ülesannet korrata, kui seda tutvustatakse objektidele, mille kohta seda pole õpetatud? Edu selles aspektis sõltub kaamera visuaalse voo teisendamisest vektoriks, mida keelemudel saab tõlgendada. Seejärel peaks mudel suutma eristada selle tähendust, siduda termini selle reaalse vastega ja seejärel suunata robotkätt vastavalt tegutsema.

2) Erinevad taustad: Kuidas mudel reageerib, kui suurem osa visuaalsest voost koosneb uutest elementidest, kuna ülesande asukoha tausta on täielikult muudetud? Näiteks tabelite muutmine või isegi valgustingimuste muutus.

3) Mitmekesine keskkond: Eelmise punkti laiendamine, mis siis, kui kogu asukoht ise on erinev?

Inimeste jaoks tunduvad need stsenaariumid lihtsad – loomulikult, kui keegi saab oma toas purgi ära visata, peaks ta saama seda ka õues teha, eks? (Kõrvalmärkusena olen täheldanud, et paar inimest on parkides hädas selle näiliselt lihtsa ülesandega). Kuid masinate jaoks on need väljakutsed, millega tuleb veel tegeleda.

Graafilised andmed näitavad, et RT-2 mudel ületab nende uute tingimustega kohanemisel mõningaid oma eelkäijaid. See paremus tuleneb suuresti ekspansiivse keelemudeli kasutamisest, mida on rikastanud koolitusfaasis töödeldud tekstide rohkus.

Üheks piiranguks, mida teadlased rõhutasid, on mudeli suutmatus kohaneda täiesti uute oskustega. Näiteks ei mõistaks ta objekti tõstmist selle vasakult või paremalt küljelt, kui see pole olnud tema koolituse osa. Seevastu keelemudelitele meeldib ChatGPT on sellel takistusel üsna pingutuseta navigeeritud. Töötledes tohutul hulgal andmemahtu lugematute ülesannete raames, suudavad need mudelid kiiresti dešifreerida ja reageerida uutele päringutele, isegi kui nad pole nendega kunagi varem kokku puutunud.

Traditsiooniliselt on robotid töötanud keerukate süsteemide kombinatsioonide abil. Nendes seadistustes suhtlesid kõrgema taseme arutlussüsteemid ja põhilised manipuleerimissüsteemid sageli ilma tõhusa suhtluseta, sarnane mängu mängimisega "katkisest telefonist". Kujutage ette, et mõtestate toimingut vaimselt ja peate selle seejärel oma kehale teostamiseks edastama. Äsja kasutusele võetud RT-2 mudel muudab selle protsessi sujuvamaks. See võimaldab ühe keele mudelil läbi viia keerukaid arutluskäike, edastades samal ajal robotile otseseid käske. See näitab, et minimaalsete treeningandmetega saab robot sooritada tegevusi, mida ta pole selgesõnaliselt õppinud.

Näiteks selleks, et vanad süsteemid saaksid jäätmeid ära visata, vajasid nad spetsiaalset koolitust prügi tuvastamiseks, kogumiseks ja kõrvaldamiseks. Seevastu RT-2-l on juba põhjapanevad arusaamad jäätmetest, ta suudab need ära tunda ilma sihipärase koolituseta ja võib neid utiliseerida isegi ilma eelneva juhendamiseta. Mõelge nüansirikkale küsimusele "mis on jäätmed?" See on keeruline kontseptsioon vormistada. Laastukott või banaanikoor muutub esemeks olemisest tarbimisjärgseks jäätmeks. Sellised keerukused ei vaja selget selgitust ega eraldi koolitust; RT-2 dešifreerib need, kasutades oma loomupärast arusaama ja tegutseb vastavalt.

Siin on põhjus, miks see edasiminek on otsustava tähtsusega ja selle tulevased tagajärjed:

Keelemudelid, nagu RT-2, toimivad kõikehõlmavate kognitiivsete mootoritena. Nende võime teadmisi üldistada ja valdkondade vahel üle kanda tähendab, et nad on kohandatavad erinevate rakendustega.
Teadlased ei kasutanud oma uuringus tahtlikult kõige arenenumaid mudeleid, eesmärgiga tagada, et iga mudel reageeriks sekundi jooksul (see tähendab, et roboti tegevuse sagedus on vähemalt 1 herts). Hüpoteetiliselt integreerides mudeli nagu GPT-4 ja suurepärane visuaalne mudel võib anda veelgi mõjuvamaid tulemusi.
Põhjalikud andmed on endiselt hõredad. Üleminek praegusest olekust terviklikule andmekogumile, mis ulatub tehase tootmisliinidest kodutöödeni, võtab aga prognooside kohaselt aega umbes üks kuni kaks aastat. See on esialgne hinnang, nii et valdkonna eksperdid võivad pakkuda täpsemat teavet. Selline andmete sissevool toob paratamatult kaasa olulisi edusamme.
Kuigi RT-2 töötati välja spetsiifilise tehnika abil, on olemas palju muid meetodeid. Tulevik sisaldab tõenäoliselt nende metoodikate sulandumist robotite võimekuse suurendamine. Üks tulevane lähenemisviis võiks hõlmata robotite koolitamist inimtegevuse videote abil. Eksklusiivseid salvestusi pole vaja – platvormid, nagu TikTok ja YouTube, pakuvad sellise sisu tohutut hoidlat.

Loe AI kohta lähemalt:

Sildid:

Kaebused

Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.

Umbes Autor

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks.

Veel artikleid

Damir Jalalov