Buletin de stiri SMW Tehnologia
26 Iunie, 2023

Meta AI dezvoltă un algoritm care le permite roboților să învețe sarcini din videoclipurile YouTube

Pe scurt

Cercetătorii au dezvoltat un model de affordance vizuală folosind videoclipuri pe internet cu comportamentul uman pentru a antrena roboții să îndeplinească sarcini complexe.

Această abordare face o punte între seturile de date statice și aplicațiile robotice din lumea reală.

Cercetătorii folosesc seturi de date video umane la scară largă, cum ar fi Ego4D și Epic Kitchens, pentru a extrage avantaje, integrând tehnici de viziune computerizată cu manipularea robotică.

Conceptul Vision-Robotics Bridge (VRB) prezintă potențialul acestei abordări, permițând roboților să învețe din videoclipurile umane și să dobândească abilitățile necesare pentru sarcini complexe.

Meta AI a dezvăluit un nou algoritm care le permite roboților să învețe și să reproducă acțiunile umane prin vizionarea videoclipurilor de pe YouTube. Într-o lucrare recentă intitulată „Affordances from Human Videos ca o reprezentare versatilă pentru robotică”, autorii explorează modul în care videoclipurile cu interacțiunile umane pot fi valorificate pentru a antrena roboții să îndeplinească sarcini complexe.

Meta AI dezvoltă un algoritm care le permite roboților să învețe sarcini din videoclipurile YouTube
Credit: Metaverse Post (mpost.io)

Această cercetare își propune să reducă decalajul dintre seturile de date statice și aplicațiile robotice din lumea reală. În timp ce modelele anterioare au avut succes pe seturi de date statice, aplicarea acestor modele direct la roboți a rămas o provocare. Cercetătorii propun ca o soluție ar putea fi formarea unui model de affordance vizuală folosind videoclipuri pe internet cu comportamentul uman. Acest model estimează unde și cum este probabil să interacționeze un om într-o scenă, oferind informații valoroase pentru roboți.

Conceptul de „affordance” este esențial pentru această abordare. Affordances se referă la potențialele acțiuni sau interacțiuni oferite de un obiect sau mediu. Înțelegând avantajele prin videoclipurile umane, robotul obține o reprezentare versatilă care îi permite să îndeplinească diverse sarcini complexe. Cercetătorii își integrează modelul de affordance cu patru paradigme diferite de învățare cu roboți: învățarea prin imitație offline, explorarea, învățarea condiționată de obiective și parametrizarea acțiunii pentru Consolidarea învățării.

Recomandat: Cele mai bune 100 de cuvinte detectabile de detectori AI în 2023

Pentru a extrage avantajele, cercetătorii folosesc seturi de date video umane la scară largă, cum ar fi Ego4D și Bucătării epice. Ei folosesc detectoare de interacțiune mână-obiect disponibile pentru a identifica regiunea de contact și a urmări traiectoria încheieturii după contact. Cu toate acestea, o provocare importantă apare atunci când omul este încă prezent în scenă, provocând o schimbare de distribuție. Pentru a rezolva acest lucru, cercetătorii folosesc informațiile disponibile ale camerei pentru a proiecta punctele de contact și traiectoria post-contact într-un cadru agnostic uman, care servește ca intrare pentru modelul lor.

Anterior, roboții erau capabili să imite acțiuni, dar abilitățile lor erau limitate la replicarea unor medii specifice. Cu cel mai recent algoritm, cercetătorii au făcut progrese semnificative în „generalizarea” acțiunilor roboților. Roboții își pot aplica acum cunoștințele dobândite în medii noi și nefamiliare. Această realizare se aliniază cu viziunea de a realiza Inteligența Generală Artificială (AGI) așa cum este susținut de cercetătorul AI Jan LeCun.

Recomandat: GPT-4 Rezolvă întrebările de la examenul MIT cu o acuratețe de 100%? Nu este adevărat, spun cercetătorii
Modelul ia ca intrare cadrul agnostic uman și produce două rezultate cheie
Modelul ia ca intrare cadru agnostic uman și produce două rezultate cheie: o hartă termică de contact și puncte de referință ale încheieturii mâinii. Harta termică de contact indică punctele probabile de contact, în timp ce punctele de referință ale încheieturii mâinii prezic traiectoria după contact. Aceste ieșiri pot fi utilizate direct în timpul de inferență, valorificând informații 3D rare, cum ar fi adâncimea și cinematica robotului. / Credit: robo-affordances.github.io

Meta AI se angajează să avanseze în domeniul viziunii computerizate și intenționează să partajeze codul și setul de date ale proiectului său. Acest lucru va permite altor cercetători și dezvoltatori să exploreze în continuare și să se bazeze pe această tehnologie. Cu acces sporit la cod și setul de date, dezvoltarea de roboți de auto-învățare capabili să dobândească noi abilități de la videoclipuri YouTube va continua să progreseze.

Modelul ia ca intrare cadrul agnostic uman și produce două rezultate cheie
Pentru a evalua eficacitatea abordării lor, cercetătorii au efectuat experimente în patru medii din lumea reală care implică zece sarcini diferite și două platforme robotizate care funcționează în sălbăticie. Rezultatele au demonstrat integrarea perfectă a tehnici de viziune computerizată cu manipulare robotică, prezentând potențialul conceptului lor Vision-Robotics Bridge (VRB). / Credit: robo-affordances.github.io

Prin valorificarea cantității mari de videoclipuri de instruire online, roboții pot deveni mai versatili și mai adaptabili în diferite medii.

Citiți mai multe despre AI:

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Mai multe articole
Damir Yalalov
Damir Yalalov

Damir este liderul echipei, manager de produs și editor la Metaverse Post, care acoperă subiecte precum AI/ML, AGI, LLM-uri, Metaverse și Web3-domenii conexe. Articolele sale atrag o audiență masivă de peste un milion de utilizatori în fiecare lună. El pare a fi un expert cu 10 ani de experiență în SEO și marketing digital. Damir a fost menționat în Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto și alte publicații. Călătorește între Emiratele Arabe Unite, Turcia, Rusia și CSI ca nomad digital. Damir a obținut o diplomă de licență în fizică, despre care crede că i-a oferit abilitățile de gândire critică necesare pentru a avea succes în peisajul în continuă schimbare al internetului. 

Hot Stories
Alăturați-vă Newsletter-ului nostru.
Ultimele ştiri

Calmul dinaintea furtunii Solana: Ce spun acum graficele, balenele și semnalele on-chain

Solana a demonstrat o performanță solidă, determinată de creșterea adopției, a interesului instituțional și a parteneriatelor cheie, confruntându-se în același timp cu potențiale...

Aflați mai multe

Criptomonedele în aprilie 2025: tendințe cheie, schimbări și ce urmează

În aprilie 2025, spațiul criptomonedelor s-a concentrat pe consolidarea infrastructurii de bază, Ethereum pregătindu-se pentru Pectra...

Aflați mai multe
Citește mai mult
Află mai multe
HSC Asset Management lansează ediția din Hong Kong, prezentând perspective care stimulează participarea instituțională Web3 Și tehnologii emergente
Featured Hack Seasons Afaceri Stil de viață pieţe Buletin de stiri Tehnologia
HSC Asset Management lansează ediția din Hong Kong, prezentând perspective care stimulează participarea instituțională Web3 Și tehnologii emergente
13 Februarie 2026
CertiK câștigă premiul „Cea mai bună soluție de securitate și conformitate 2026” la premiile SiGMA AIBC Eurasia
Buletin de stiri Tehnologia
CertiK câștigă premiul „Cea mai bună soluție de securitate și conformitate 2026” la premiile SiGMA AIBC Eurasia
13 Februarie 2026
Binance, BlackRock și Ripple conduc eforturile instituționale în domeniul criptomonedelor în a doua săptămână a lunii februarie
Afaceri Buletin de stiri Tehnologia
Binance, BlackRock și Ripple conduc eforturile instituționale în domeniul criptomonedelor în a doua săptămână a lunii februarie
13 Februarie 2026
Fondatorul Gate, Dr. Han, despre dezvoltarea sistemului financiar de generație următoare prin intermediul inteligenței Web3
Afaceri Buletin de stiri Tehnologia
Fondatorul Gate, Dr. Han, despre dezvoltarea sistemului financiar de generație următoare prin intermediul inteligenței Web3
13 Februarie 2026
CRYPTOMERIA LABS PTE. LTD.