Augusts 01, 2023

Is GPT-4 Vai plānojat uzlādēt robotiku? Kāpēc RT-2 maina visu

Publicēts: 01. gada 2023. augustā plkst. 3:58 Atjaunināts: 01. gada 2023. augustā plkst. 3:58

Rediģēts un pārbaudīts ar faktiem: 01. gada 2023. augustā plkst. 3:58

Īsumā

Google DeepMind ir izstrādājis redzes valodas modeļu lietojumprogrammas pilnīga robotu vadība, koncentrējoties uz viņu spēju vispārināt un nodot zināšanas dažādās jomās.

RT-2 modelis, kas paredzēts, lai ģenerētu secības, kas spēj kodēt milzīgu informācijas daudzumu, ir pārbaudīts dažādos scenārijos, tostarp nepazīstamos objektos, atšķirīgā fonā un dažādās vidēs.

RT-2 modelis pārspēj dažus no saviem priekšgājējiem, pielāgojoties jauniem apstākļiem, galvenokārt pateicoties tā ekspansīvajam valodas modelim.

Google DeepMind pētīja redzes valodas modeļu lietojumprogrammas, koncentrējoties uz to potenciālu pilnīgai robotu vadībai. Šīs izmeklēšanas mērķis bija noteikt, vai šie modeļi spēj plaši vispārināt. Turklāt tika pētīts, vai šajā kontekstā varētu parādīties noteiktas kognitīvās funkcijas, piemēram, spriešana un plānošana, kas bieži ir saistītas ar ekspansīviem valodas modeļiem.

Is GPT-4 Vai plānojat uzlādēt robotiku? Kāpēc RT-2 maina visu — Kredīts: Metaverse Post / Stable Diffusion

Šīs izpētes pamatprincips ir cieši saistīts ar lielo valodu modeļu (LLM) īpašībām. Tādas modeļi ir paredzēti ģenerēšanai jebkura secība, kas spēj kodēt plašu informācijas klāstu. Tas ietver ne tikai parasto valodu vai programmēšanas kodu, piemēram, Python, bet arī īpašas komandas kas var vadīt robotu darbības.

Lai to aplūkotu perspektīvā, apsveriet modeļa spēju saprast un pārvērst konkrētas virkņu secības izmantojamās robotu komandās. Piemēram, ģenerētu virkni, piemēram, “1 128 91 241 5 101 127 217”, var atšifrēt šādā veidā:

Sākotnējais cipars viens norāda, ka uzdevums joprojām turpinās un nav pabeigts.
Nākamā skaitļu triāde, 128-91-241, apzīmē relatīvu un normalizētu nobīdi starp trim telpas dimensijām.
Noslēguma komplekts 101-127-217 precīzi nosaka robota funkcionālās rokas segmenta rotācijas pakāpi.

Tāda konfigurācija iespējo robotu lai mainītu tā stāvokli sešās brīvības pakāpēs. Paralēles vilkšana, tāpat kā valodu modeļi asimilēt vispārīgas idejas un koncepcijas no plašiem teksta datiem internetā, RT-2 modelis iegūst zināšanas no tīmekļa informācijas, lai vadītu robotu darbības.

Tā iespējamās sekas ir nozīmīgas. Ja modelis ir pakļauts atlasītai trajektoriju kopai, kas būtībā norāda: "lai sasniegtu noteiktu rezultātu, robota satveršanas mehānismam ir jāpārvietojas noteiktā veidā", tad ir pašsaprotami, ka transformators var radīt saskaņotas darbības saskaņā ar šī ievade.

Būtisks vērtēšanas aspekts bija spēja izpildīt jaunus uzdevumus, kas nav ietverti apmācības laikā. To var pārbaudīt vairākos atšķirīgos veidos:

1) Nepazīstami objekti: Vai modelis var atkārtot uzdevumu, ja tas tiek iepazīstināts ar objektiem, par kuriem tas nav apmācīts? Panākumi šajā aspektā ir atkarīgi no kameras vizuālās plūsmas pārvēršanas vektorā, ko valodas modelis var interpretēt. Pēc tam modelim jāspēj saskatīt tā nozīmi, saistīt terminu ar tā ekvivalentu reālajā pasaulē un pēc tam vadīt robotizēto roku atbilstoši rīkoties.

2) Dažādi foni: Kā modelis reaģē, ja lielākā daļa vizuālās plūsmas sastāv no jauniem elementiem, jo uzdevuma atrašanās vietas fons ir pilnībā izmainīts? Piemēram, tabulu maiņa vai pat apgaismojuma apstākļu maiņa.

3) Daudzveidīga vide: Paplašinot iepriekšējo punktu, ko darīt, ja visa atrašanās vieta pati par sevi atšķiras?

Cilvēkiem šie scenāriji šķiet vienkārši – protams, ja kāds var izmest skārdeni savā istabā, viņam to vajadzētu darīt arī ārpus telpām, vai ne? (Sānu piezīmē, esmu novērojis dažus cilvēkus parkos, kas cīnās ar šo šķietami vienkāršo uzdevumu). Tomēr attiecībā uz mašīnām tās ir problēmas, kas vēl jārisina.

Grafiskie dati atklāj, ka RT-2 modelis pārspēj dažus no saviem priekšgājējiem, ja runa ir par pielāgošanos šiem jaunajiem apstākļiem. Šis pārākums lielā mērā izriet no ekspansīva valodas modeļa izmantošanas, ko bagātina apmācību posmā apstrādāto tekstu pārpilnība.

Viens no ierobežojumiem, ko uzsvēra pētnieki, ir modeļa nespēja pielāgoties pilnīgi jaunām prasmēm. Piemēram, tas nesaprastu objekta pacelšanu no kreisās vai labās puses, ja tas nav bijis daļa no tā apmācības. Turpretim valodu modeļiem patīk ChatGPT ir pārvarējuši šo šķērsli diezgan bez piepūles. Apstrādājot milzīgu datu apjomu neskaitāmos uzdevumos, šie modeļi var ātri atšifrēt un rīkoties pēc jauniem pieprasījumiem, pat ja tie nekad iepriekš nav saskārušies ar tiem.

Tradicionāli roboti ir darbojušies, izmantojot sarežģītu sistēmu kombinācijas. Šajos iestatījumos augstāka līmeņa spriešanas sistēmas un pamata manipulācijas sistēmas bieži mijiedarbojās bez efektīvas komunikācijas, līdzīgs spēles spēlēšanai par "salauztu tālruni". Iedomājieties, ka domājat konceptualizējat kādu darbību un pēc tam jums tā jānodod ķermenim, lai tā tiktu izpildīta. Jaunizveidotais RT-2 modelis racionalizē šo procesu. Tas dod iespēju vienas valodas modelim veikt izsmalcinātu argumentāciju, vienlaikus nosūtot robotam tiešas komandas. Tas parāda, ka ar minimāliem apmācības datiem robots var veikt darbības, kuras tas nav skaidri iemācījies.

Piemēram, lai vecākās sistēmas varētu izmest atkritumus, tām bija nepieciešama īpaša apmācība atkritumu identificēšanai, savākšanai un izmešanai. Turpretim RT-2 jau ir fundamentāla izpratne par atkritumiem, tas var tos atpazīt bez mērķtiecīgas apmācības un var atbrīvoties no tiem pat bez iepriekšējas instrukcijas par rīcību. Apsveriet niansēto jautājumu "kas ir atkritumi?" Šo koncepciju ir grūti formalizēt. Šķeldas maisiņš vai banāna miza pēc patērēšanas no preces pāriet uz atkritumiem. Šādām sarežģītībām nav vajadzīgs skaidrs skaidrojums vai atsevišķa apmācība; RT-2 tos atšifrē, izmantojot tai raksturīgo izpratni, un attiecīgi rīkojas.

Lūk, kāpēc šī attīstība ir izšķiroša, un tās turpmākās sekas:

Valodu modeļi, piemēram, RT-2, darbojas kā visaptveroši kognitīvie dzinēji. Viņu spēja vispārināt un nodot zināšanas dažādās jomās nozīmē, ka tās ir pielāgojamas dažādām lietojumprogrammām.
Pētnieki apzināti neizmantoja vismodernākos modeļus savā pētījumā, lai nodrošinātu, ka katrs modelis reaģēja sekundes laikā (tas nozīmē, ka robotu darbības frekvence ir vismaz 1 Hz). Hipotētiski, integrējot modeli, piemēram GPT-4 un izcils vizuālais modelis varētu dot vēl pārliecinošākus rezultātus.
Visaptverošu datu joprojām ir maz. Tomēr tiek prognozēts, ka pāreja no pašreizējā stāvokļa uz holistisku datu kopu, sākot no rūpnīcas ražošanas līnijām līdz mājas darbiem, prasīs aptuveni vienu līdz divus gadus. Šī ir provizoriska aplēse, tāpēc jomas eksperti var piedāvāt precīzāku informāciju. Šis datu pieplūdums neizbēgami veicinās ievērojamus sasniegumus.
Lai gan RT-2 tika izstrādāts, izmantojot īpašu tehniku, pastāv daudzas citas metodes. Nākotnē, iespējams, būs arī šo metodoloģiju saplūšana robotu spēju uzlabošana. Viena perspektīva pieeja varētu ietvert robotu apmācību, izmantojot cilvēka darbību video. Ekskluzīvi ieraksti nav nepieciešami — tādas platformas kā TikTok un YouTube piedāvā plašu šāda satura krātuvi.

Lasiet vairāk par AI:

Tags:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.

Vairāk rakstus

Damirs Jalalovs