Meta AI dezvoltă un algoritm care le permite roboților să învețe sarcini din videoclipurile YouTube
Pe scurt
Cercetătorii au dezvoltat un model de affordance vizuală folosind videoclipuri pe internet cu comportamentul uman pentru a antrena roboții să îndeplinească sarcini complexe.
Această abordare face o punte între seturile de date statice și aplicațiile robotice din lumea reală.
Cercetătorii folosesc seturi de date video umane la scară largă, cum ar fi Ego4D și Epic Kitchens, pentru a extrage avantaje, integrând tehnici de viziune computerizată cu manipularea robotică.
Conceptul Vision-Robotics Bridge (VRB) prezintă potențialul acestei abordări, permițând roboților să învețe din videoclipurile umane și să dobândească abilitățile necesare pentru sarcini complexe.
Meta AI a dezvăluit un nou algoritm care le permite roboților să învețe și să reproducă acțiunile umane prin vizionarea videoclipurilor de pe YouTube. Într-o lucrare recentă intitulată „Affordances from Human Videos ca o reprezentare versatilă pentru robotică”, autorii explorează modul în care videoclipurile cu interacțiunile umane pot fi valorificate pentru a antrena roboții să îndeplinească sarcini complexe.
Această cercetare își propune să reducă decalajul dintre seturile de date statice și aplicațiile robotice din lumea reală. În timp ce modelele anterioare au avut succes pe seturi de date statice, aplicarea acestor modele direct la roboți a rămas o provocare. Cercetătorii propun ca o soluție ar putea fi formarea unui model de affordance vizuală folosind videoclipuri pe internet cu comportamentul uman. Acest model estimează unde și cum este probabil să interacționeze un om într-o scenă, oferind informații valoroase pentru roboți.
Conceptul de „affordance” este esențial pentru această abordare. Affordances se referă la potențialele acțiuni sau interacțiuni oferite de un obiect sau mediu. Înțelegând avantajele prin videoclipurile umane, robotul obține o reprezentare versatilă care îi permite să îndeplinească diverse sarcini complexe. Cercetătorii își integrează modelul de affordance cu patru paradigme diferite de învățare cu roboți: învățarea prin imitație offline, explorarea, învățarea condiționată de obiective și parametrizarea acțiunii pentru Consolidarea învățării.
Pentru a extrage avantajele, cercetătorii folosesc seturi de date video umane la scară largă, cum ar fi Ego4D și Bucătării epice. Ei folosesc detectoare de interacțiune mână-obiect disponibile pentru a identifica regiunea de contact și a urmări traiectoria încheieturii după contact. Cu toate acestea, o provocare importantă apare atunci când omul este încă prezent în scenă, provocând o schimbare de distribuție. Pentru a rezolva acest lucru, cercetătorii folosesc informațiile disponibile ale camerei pentru a proiecta punctele de contact și traiectoria post-contact într-un cadru agnostic uman, care servește ca intrare pentru modelul lor.
Anterior, roboții erau capabili să imite acțiuni, dar abilitățile lor erau limitate la replicarea unor medii specifice. Cu cel mai recent algoritm, cercetătorii au făcut progrese semnificative în „generalizarea” acțiunilor roboților. Roboții își pot aplica acum cunoștințele dobândite în medii noi și nefamiliare. Această realizare se aliniază cu viziunea de a realiza Inteligența Generală Artificială (AGI) așa cum este susținut de cercetătorul AI Jan LeCun.
| Recomandat: GPT-4 Rezolvă întrebările de la examenul MIT cu o acuratețe de 100%? Nu este adevărat, spun cercetătorii |
Meta AI se angajează să avanseze în domeniul viziunii computerizate și intenționează să partajeze codul și setul de date ale proiectului său. Acest lucru va permite altor cercetători și dezvoltatori să exploreze în continuare și să se bazeze pe această tehnologie. Cu acces sporit la cod și setul de date, dezvoltarea de roboți de auto-învățare capabili să dobândească noi abilități de la videoclipuri YouTube va continua să progreseze.
Prin valorificarea cantității mari de videoclipuri de instruire online, roboții pot deveni mai versatili și mai adaptabili în diferite medii.
Citiți mai multe despre AI:
Declinare a responsabilităţii
În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.
Despre autor
Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.
Mai multe articole
Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului.