August 01, 2023

Is GPT-4 Pe cale să supraîncărcați robotica? De ce RT-2 schimbă totul

Publicat: 01 august 2023 la 3:58 Actualizat: 01 august 2023 la 3:58

Editat și verificat: 01 august 2023 la 3:58

Pe scurt

Google DeepMind a dezvoltat aplicații de model viziune-limbaj pentru control robotic de la capăt la capăt, concentrându-se pe capacitatea lor de a generaliza și de a transfera cunoștințe între domenii.

Modelul RT-2, conceput pentru a genera secvențe capabile să codifice cantități mari de informații, a fost testat în diferite scenarii, inclusiv obiecte nefamiliare, medii diferite și medii variate.

Modelul RT-2 îi depășește pe unii dintre predecesorii săi în adaptarea la noile condiții, în mare parte datorită modelului său de limbaj expansiv.

Google DeepMind a investigat aplicațiile modelului de viziune în limbaj, concentrându-se pe potențialul lor de control robotic end-to-end. Această investigație a încercat să determine dacă aceste modele sunt capabile de generalizare largă. Mai mult, a investigat dacă anumite funcții cognitive, cum ar fi raționamentul și planificarea, care sunt frecvent asociate cu modele de limbaj expansive, ar putea apărea în acest context.

Is GPT-4 Pe cale să supraîncărcați robotica? De ce RT-2 schimbă totul — Credit: Metaverse Post / Stable Diffusion

Premisa fundamentală din spatele acestei explorări este legată intrinsec de caracteristicile modelelor de limbaj mari (LLM). Astfel de modelele sunt concepute pentru a genera orice secvență capabilă să codifice o gamă largă de informații. Aceasta include nu doar limbaj comun sau cod de programare precum Python, ci și comenzi specifice care pot ghida acțiunile robotice.

Pentru a pune acest lucru în perspectivă, luați în considerare capacitatea modelului de a înțelege și de a traduce secvențe specifice de șiruri în comenzi robotizate acționabile. Ca o ilustrație, un șir generat, cum ar fi „1 128 91 241 5 101 127 217” poate fi decodat în următorul mod:

Cifra inițială, unu, înseamnă că sarcina este încă în curs și nu a ajuns la finalizare.
Triada ulterioară de numere, 128-91-241, desemnează o schimbare relativă și normalizată între cele trei dimensiuni ale spațiului.
Setul final, 101-127-217, indică gradul de rotație al segmentului de braț funcțional al robotului.

O astfel de configurație activează robotul pentru a-și modifica starea pe șase grade de libertate. Făcând o paralelă, la fel ca modele de limbaj asimilează idei și concepte generale din date textuale vaste de pe internet, modelul RT-2 extrage cunoștințe din informații bazate pe web pentru a ghida acțiunile robotice.

Implicațiile potențiale ale acestui lucru sunt semnificative. Dacă un model este expus unui set de traiectorii care indică, în esență, „pentru a obține un anumit rezultat, mecanismul de prindere al robotului trebuie să se miște într-un mod specific”, atunci este înțeles că transformatorul ar putea genera acțiuni coerente în conformitate cu această intrare.

Un aspect crucial în curs de evaluare a fost capacitatea de a executa sarcini noi neacoperite în timpul instruirii. Acest lucru poate fi testat în câteva moduri distincte:

1) Obiecte necunoscute: Poate modelul să reproducă o sarcină atunci când este introdus la obiecte pentru care nu a fost antrenat? Succesul în acest aspect depinde de transformarea fluxului vizual de la cameră într-un vector, pe care modelul de limbaj îl poate interpreta. Modelul ar trebui să poată discerne sensul său, să lege un termen cu omologul său din lumea reală și, ulterior, să ghideze brațul robotizat să acționeze în consecință.

2) Medii diferite: Cum reacționează modelul când majoritatea fluxului vizual constă din elemente noi, deoarece fundalul locației sarcinii a fost complet modificat? De exemplu, o schimbare a meselor sau chiar o schimbare a condițiilor de iluminare.

3) Medii variate: Extindem punctul anterior, ce se întâmplă dacă întreaga locație în sine este diferită?

Pentru oameni, aceste scenarii par simple - desigur, dacă cineva poate arunca o cutie în camera lor, ar trebui să poată face acest lucru și în aer liber, nu? (Pe o notă laterală, am observat câțiva indivizi în parcuri care se luptă cu această sarcină aparent simplă). Cu toate acestea, pentru mașini, acestea sunt provocări care rămân de rezolvat.

Datele grafice dezvăluie că modelul RT-2 îi depășește pe unii dintre predecesorii săi când vine vorba de adaptarea la aceste noi condiții. Această superioritate provine în mare măsură din valorificarea unui model lingvistic expansiv, îmbogățit de multitudinea de texte pe care le-a procesat în timpul fazei de formare.

O constrângere evidențiată de cercetători este incapacitatea modelului de a se adapta la abilități complet noi. De exemplu, nu ar înțelege ridicarea unui obiect din partea stângă sau dreaptă dacă acest lucru nu a făcut parte din antrenamentul său. În schimb, modelele de limbaj ca ChatGPT au depășit acest obstacol destul de fără efort. Prin procesarea unor cantități mari de date într-o multitudine de sarcini, aceste modele pot descifra și acționa rapid în funcție de noi solicitări, chiar dacă nu le-au mai întâlnit până acum.

În mod tradițional, roboții au funcționat folosind combinații de sisteme complexe. În aceste configurații, sistemele de raționament de nivel superior și sistemele fundamentale de manipulare au interacționat adesea fără o comunicare eficientă, asemănător cu jocul a „telefonului spart”. Imaginați-vă să conceptualizați o acțiune mental, apoi să aveți nevoie să o transmiteți corpului dumneavoastră pentru execuție. Modelul RT-2 recent introdus simplifică acest proces. Acesta permite unui model de limbă unică să întreprindă un raționament sofisticat, trimițând, de asemenea, comenzi directe către robot. Demonstrează că, cu date minime de antrenament, robotul poate desfășura activități pe care nu le-a învățat în mod explicit.

De exemplu, pentru a permite sistemelor mai vechi să arunce deșeurile, au avut nevoie de o pregătire specifică pentru a identifica, ridica și arunca gunoiul. În schimb, RT-2 posedă deja o înțelegere fundamentală a deșeurilor, le poate recunoaște fără instruire țintită și le poate elimina chiar și fără instrucțiuni prealabile cu privire la acțiune. Luați în considerare întrebarea nuanțată, „ce constituie deșeuri?” Acesta este un concept dificil de oficializat. O pungă de cip sau coajă de banană trece de la a fi un articol la deșeuri post-consum. Astfel de complexități nu au nevoie de explicații explicite sau de instruire separată; RT-2 le descifrează folosind înțelegerea sa inerentă și acționează în consecință.

Iată de ce acest progres este esențial și implicațiile sale viitoare:

Modelele de limbaj, cum ar fi RT-2, funcționează ca motoare cognitive atotcuprinzătoare. Capacitatea lor de a generaliza și de a transfera cunoștințe între domenii înseamnă că sunt adaptabili la aplicații variate.
Cercetătorii nu au folosit în mod intenționat cele mai avansate modele pentru studiul lor, urmărind să se asigure că fiecare model a răspuns într-o secundă (adică o frecvență de acțiune robotică de cel puțin 1 Hertz). Ipotetic, integrând un model ca GPT-4 și model vizual superior ar putea da rezultate și mai convingătoare.
Datele cuprinzătoare sunt încă rare. Cu toate acestea, trecerea de la starea actuală la un set de date holistic, variind de la liniile de producție din fabrică la treburile domestice, se estimează că va dura aproximativ unul până la doi ani. Aceasta este o estimare provizorie, astfel încât experții în domeniu pot oferi mai multă precizie. Acest aflux de date va genera inevitabil progrese semnificative.
În timp ce RT-2 a fost dezvoltat folosind o tehnică specifică, există numeroase alte metode. Viitorul deține probabil o fuziune a acestor metodologii, mai departe îmbunătățirea capacităților robotice. O abordare prospectivă ar putea implica antrenarea roboților folosind videoclipuri cu activități umane. Nu este nevoie de înregistrări exclusive – platforme precum TikTok și YouTube oferă un depozit vast de astfel de conținut.

Citiți mai multe despre AI:

Etichete:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.

Mai multe articole

Damir Yalalov