Kolovoz 01, 2023

Is GPT-4 Spremate se za Supercharge Robotics? Zašto RT-2 mijenja sve

Objavljeno: 01. kolovoza 2023. u 3:58 Ažurirano: 01. kolovoza 2023. u 3:58

Uređeno i provjereno: 01. kolovoza 2023. u 3:58

Ukratko

Google DeepMind razvio je aplikacije za modele jezika vizije za end-to-end robotsko upravljanje, usredotočujući se na njihovu sposobnost generaliziranja i prijenosa znanja među domenama.

Model RT-2, dizajniran za generiranje sekvenci sposobnih za kodiranje ogromne količine informacija, testiran je u različitim scenarijima, uključujući nepoznate objekte, različite pozadine i različita okruženja.

Model RT-2 nadmašuje neke od svojih prethodnika u prilagodbi novim uvjetima, ponajviše zahvaljujući ekspanzivnom jezičnom modelu.

Google DeepMind istraživao je aplikacije modela vizualnog jezika, usredotočujući se na njihov potencijal za end-to-end robotsku kontrolu. Ovim se istraživanjem nastojalo utvrditi jesu li ti modeli sposobni za široku generalizaciju. Nadalje, istraživalo se mogu li se određene kognitivne funkcije, poput rasuđivanja i planiranja, koje su često povezane s ekspanzivnim jezičnim modelima, pojaviti u ovom kontekstu.

Is GPT-4 Spremate se za Supercharge Robotics? Zašto RT-2 mijenja sve — kredit: Metaverse Post / Stable Diffusion

Temeljna premisa iza ovog istraživanja suštinski je povezana s karakteristikama velikih jezičnih modela (LLM). Takav modeli su dizajnirani za generiranje bilo koji niz koji može kodirati širok raspon informacija. To uključuje ne samo uobičajeni jezik ili programski kod poput Pythona, već i specifične naredbe koji mogu voditi robotske akcije.

Da bismo ovo stavili u perspektivu, razmotrite sposobnost modela da razumije i prevede određene nizove nizova u djelotvorne robotske naredbe. Kao ilustracija, generirani niz kao što je "1 128 91 241 5 101 127 217" može se dekodirati na sljedeći način:

Početna znamenka, jedan, označava da je zadatak još uvijek u tijeku i da nije dovršen.
Sljedeća trijada brojeva, 128-91-241, označava relativni i normalizirani pomak kroz tri dimenzije prostora.
Zaključni set, 101-127-217, točno određuje stupanj rotacije segmenta funkcionalne ruke robota.

Takva konfiguracija omogućuje robotu da modificira svoje stanje kroz šest stupnjeva slobode. Povlačeći paralelu, baš kao jezični modeli asimilirati opće ideje i koncepte iz golemih tekstualnih podataka na internetu, model RT-2 izvlači znanje iz informacija temeljenih na webu kako bi vodio robotske akcije.

Potencijalne implikacije ovoga su značajne. Ako je model izložen odabranom skupu putanja koje u suštini pokazuju, "kako bi se postigao određeni ishod, robotov mehanizam za hvatanje mora se kretati na određeni način", tada je logično da bi transformator mogao generirati koherentne akcije u skladu s ovaj unos.

Ključni aspekt koji se ocjenjivao bila je sposobnost da se izvršavanje novih zadataka koji nisu obuhvaćeni tijekom obuke. To se može testirati na nekoliko različitih načina:

1) Nepoznati objekti: Može li model replicirati zadatak kada se upozna s objektima na kojima nije trenirao? Uspjeh u ovom aspektu ovisi o pretvaranju vizualnog feeda iz kamere u vektor, koji jezični model može interpretirati. Model bi tada trebao biti u stanju razlučiti njegovo značenje, povezati pojam s njegovim pandanom iz stvarnog svijeta i potom voditi robotsku ruku da djeluje u skladu s tim.

2) Različite pozadine: Kako model reagira kada se većina vizualnog feeda sastoji od novih elemenata jer je pozadina lokacije zadatka potpuno izmijenjena? Na primjer, promjena u stolovima ili čak promjena u uvjetima osvjetljenja.

3) Raznolika okruženja: Proširujući prethodnu točku, što ako je sama cijela lokacija drugačija?

Za ljude se ovi scenariji čine jednostavnima – naravno, ako netko može odbaciti limenku u svojoj sobi, trebao bi to moći učiniti i na otvorenom, zar ne? (S druge strane, primijetio sam nekoliko pojedinaca u parkovima koji se bore s ovim naizgled jednostavnim zadatkom). Ipak, za strojeve, to su izazovi s kojima se tek treba pozabaviti.

Grafički podaci otkrivaju da model RT-2 nadmašuje neke od svojih prethodnika kada je u pitanju prilagodba ovim novim uvjetima. Ova superiornost u velikoj mjeri proizlazi iz korištenja ekspanzivnog jezičnog modela, obogaćenog mnoštvom tekstova koje je obradio tijekom svoje faze obuke.

Jedno ograničenje koje su istaknuli istraživači je nesposobnost modela da se prilagodi potpuno novim vještinama. Na primjer, ono ne bi razumjelo podizanje predmeta sa svoje lijeve ili desne strane ako to nije dio njegove obuke. Nasuprot tome, jezični modeli poput ChatGPT prebrodili ovu prepreku prilično bez napora. Obrađujući goleme količine podataka kroz bezbroj zadataka, ovi modeli mogu brzo dešifrirati i djelovati na nove zahtjeve, čak i ako se s njima nikada prije nisu susreli.

Tradicionalno, roboti su radili koristeći kombinacije zamršenih sustava. U tim postavama, sustavi rasuđivanja više razine i sustavi temeljne manipulacije često su međusobno komunicirali bez učinkovite komunikacije, slično igranju igre "pokvarenog telefona". Zamislite da mentalno zamislite radnju, a zatim je morate prenijeti svom tijelu za izvršenje. Novopredstavljeni model RT-2 pojednostavljuje ovaj proces. Omogućuje jedan jezični model za poduzimanje sofisticiranog razmišljanja, a istovremeno šalje izravne naredbe robotu. Pokazuje da s minimalnim podacima o obuci, robot može izvoditi aktivnosti koje nije eksplicitno naučio.

Na primjer, kako bi se starijim sustavima omogućilo odbacivanje otpada, bila im je potrebna posebna obuka za prepoznavanje, skupljanje i odlaganje smeća. Nasuprot tome, RT-2 već posjeduje temeljno razumijevanje otpada, može ga prepoznati bez ciljane obuke i može ga zbrinuti čak i bez prethodne upute o postupanju. Razmotrite nijansirano pitanje, "što je otpad?" Ovaj koncept je zahtjevan za formalizirati. Vrećica za čips ili kora od banane nakon konzumacije postaje otpad. Takve zamršenosti ne trebaju eksplicitno objašnjenje ili posebnu obuku; RT-2 ih dešifrira koristeći svoje inherentno razumijevanje i ponaša se u skladu s tim.

Evo zašto je ovaj napredak ključan i njegove buduće implikacije:

Jezični modeli, poput RT-2, funkcioniraju kao sveobuhvatni kognitivni motori. Njihova sposobnost generaliziranja i prijenosa znanja kroz domene znači da su prilagodljivi različitim primjenama.
Istraživači namjerno nisu koristili najnaprednije modele za svoju studiju, s ciljem da osiguraju da svaki model reagira unutar jedne sekunde (što znači frekvenciju robotske akcije od najmanje 1 Hertz). Hipotetski, integracija modela poput GPT-4 a vrhunski vizualni model mogao dati još uvjerljivije rezultate.
Sveobuhvatni podaci još su rijetki. Međutim, predviđa se da će prelazak sa sadašnjeg stanja na holistički skup podataka, od tvorničkih proizvodnih linija do kućnih poslova, trajati otprilike jednu do dvije godine. Ovo je provizorna procjena, tako da stručnjaci na tom području mogu ponuditi više preciznosti. Ovaj priljev podataka neizbježno će potaknuti značajan napredak.
Iako je RT-2 razvijen pomoću posebne tehnike, postoje brojne druge metode. Budućnost vjerojatno nosi fuziju ovih metodologija, nadalje poboljšanje robotskih sposobnosti. Jedan mogući pristup mogao bi uključivati obuku robota korištenjem videa ljudskih aktivnosti. Nema potrebe za ekskluzivnim snimkama – platforme kao što su TikTok i YouTube nude golemu riznicu takvog sadržaja.

Pročitajte više o AI:

Oznake:

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.

Više članaka

Damir Yalalov