A Meta AI olyan algoritmust fejleszt, amely lehetővé teszi a robotok számára, hogy feladatokat tanuljanak meg a YouTube videókból
Röviden
A kutatók az emberi viselkedést bemutató internetes videók segítségével vizuális megtérülési modellt fejlesztettek ki, hogy bonyolult feladatok elvégzésére tanítsák a robotokat.
Ez a megközelítés áthidalja a szakadékot a statikus adatkészletek és a valós robotalkalmazások között.
A kutatók nagyszabású emberi videoadatkészleteket, például az Ego4D-t és az Epic Kitchens-t használnak a jövedelmek kinyerésére, integrálva a számítógépes látástechnikákat a robotmanipulációval.
A Vision-Robotics Bridge (VRB) koncepció bemutatja e megközelítésben rejlő lehetőségeket, lehetővé téve a robotok számára, hogy tanuljanak az emberi videókból, és elsajátítsák az összetett feladatokhoz szükséges készségeket.
A Meta AI bemutatott egy új algoritmust, amely lehetővé teszi a robotok számára, hogy megtanulják és megismételjék az emberi tevékenységeket YouTube-videók megtekintése révén. A közelmúltban megjelent cikkben „Affordances from Human Videos, mint a robotika sokoldalú reprezentációja”, a szerzők azt vizsgálják, hogy az emberi interakciókról készült videók hogyan használhatók fel a robotok összetett feladatok elvégzésére való képzésére.
A kutatás célja a statikus adatkészletek és a valós robotalkalmazások közötti szakadék áthidalása. Míg a korábbi modellek statikus adatkészleteken sikeresek voltak, ezeknek a modelleknek a robotokra való közvetlen alkalmazása továbbra is kihívást jelent. A kutatók azt javasolják, hogy megoldást jelenthet az emberi viselkedésről készült internetes videók segítségével egy vizuális megtérülési modell képzése. Ez a modell megbecsüli, hogy az ember valószínűleg hol és hogyan lép interakcióba egy jelenetben, értékes információkat nyújtva a robotok számára.
Az „affordance” fogalma központi szerepet játszik ebben a megközelítésben. Az affordance az objektum vagy környezet által kínált lehetséges cselekvésekre vagy interakciókra utal. Azáltal, hogy az emberi videókon keresztül megérti az esélyeket, a robot sokoldalú reprezentációt nyer, amely lehetővé teszi különféle összetett feladatok elvégzését. A kutatók megengedhetőségi modelljüket négy különböző robottanulási paradigmával integrálják: offline imitációs tanulás, felfedezés, célfüggő tanulás és cselekvési paraméterezés. megerősítő tanulás.
A jövedelmek kinyerésére a kutatók nagyszabású emberi videó adatkészleteket használnak, mint pl Ego4D és a Epikus konyhák. Készen kapható kéz-tárgy interakciós detektorokat alkalmaznak az érintkezési régió azonosítására és a csukló pályájának nyomon követésére az érintkezés után. Azonban egy fontos kihívás akkor adódik, amikor az ember még mindig jelen van a jelenetben, ami eloszlást okoz. Ennek megoldására a kutatók a rendelkezésre álló kamerainformációkat felhasználva vetítik ki az érintkezési pontokat és az érintkezés utáni pályát egy ember-agnosztikus keretbe, amely bemenetként szolgál modelljükhöz.
Korábban a robotok képesek voltak műveleteket utánozni, de képességeik meghatározott környezetek replikálására korlátozódtak. A legújabb algoritmussal a kutatók jelentős előrelépést értek el a robotműveletek „általánosításában”. A robotok mostantól új és ismeretlen környezetben is kamatoztathatják megszerzett tudásukat. Ez az eredmény összhangban van a mesterséges általános intelligencia elérésének víziójával (AGI) ahogy az AI-kutató szorgalmazza Jan LeCun.
A Meta AI elkötelezett a számítógépes látás területének fejlesztése mellett, és azt tervezi, hogy megosztja projektje kódját és adatkészletét. Ez lehetővé teszi más kutatók és fejlesztők számára, hogy tovább vizsgálják és építsék ezt a technológiát. A kódhoz és az adatkészlethez való megnövekedett hozzáféréssel olyan öntanuló robotok fejlesztése, amelyek képesek új ismeretek elsajátítására YouTube-videók tovább fog fejlődni.
A hatalmas mennyiségű online oktatóvideó felhasználásával a robotok sokoldalúbbá és alkalmazkodóbbá válhatnak a különböző környezetekben.
Tudjon meg többet az AI-ról:
Jogi nyilatkozat
Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.
A szerzőről
Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.
További cikkek
Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.