Meta AI vyvíjí algoritmus, který robotům umožňuje učit se úkoly z videí na YouTube
Stručně
Výzkumníci vyvinuli model vizuální adopce využívající internetová videa lidského chování k výcviku robotů k provádění složitých úkolů.
Tento přístup překlenuje propast mezi statickými datovými sadami a robotickými aplikacemi v reálném světě.
Výzkumníci používají rozsáhlé datové sady lidského videa, jako jsou Ego4D a Epic Kitchens, k extrakci výhod a integrují techniky počítačového vidění s robotickou manipulací.
Koncept Vision-Robotics Bridge (VRB) ukazuje potenciál tohoto přístupu a umožňuje robotům učit se z lidských videí a získávat dovednosti potřebné pro složité úkoly.
Meta AI odhalila nový algoritmus, který umožňuje robotům učit se a replikovat lidské činy sledováním videí na YouTube. V nedávném článku s názvem „Přínosy z lidských videí jako všestranná reprezentace pro robotiku“, autoři zkoumají, jak lze videa lidských interakcí využít k výcviku robotů k provádění složitých úkolů.
Tento výzkum si klade za cíl překlenout propast mezi statickými datovými sadami a robotickými aplikacemi v reálném světě. Zatímco předchozí modely prokázaly úspěch na statických souborech dat, aplikace těchto modelů přímo na roboty zůstala výzvou. Výzkumníci navrhují trénovat model vizuálního přístupu pomocí internetových videí lidského chování. Tento model odhaduje, kde a jak pravděpodobně bude člověk na scéně interagovat, a poskytuje tak cenné informace pro roboty.
Koncept „dovolení“ je ústředním bodem tohoto přístupu. Affordance se týkají potenciálních akcí nebo interakcí, které objekt nebo prostředí nabízí. Pochopením možností prostřednictvím lidských videí získá robot všestrannou reprezentaci, která mu umožňuje provádět různé složité úkoly. Výzkumníci integrují svůj model dotace se čtyřmi různými paradigmaty učení robotů: offline imitační učení, průzkum, učení podmíněné cílem a parametrizace akcí pro posilování učení.
K extrakci finančních prostředků využívají výzkumníci rozsáhlé datové soubory lidského videa, jako je např Ego4D a Epické kuchyně. Používají běžně dostupné detektory interakce ruka-objekt k identifikaci kontaktní oblasti a sledování trajektorie zápěstí po kontaktu. Důležitý problém však nastává, když je na scéně stále přítomen člověk, což způsobuje distribuční posun. K vyřešení tohoto problému výzkumníci používají dostupné informace z kamery k projekci kontaktních bodů a post-kontaktní trajektorie do lidského agnostického rámce, který slouží jako vstup do jejich modelu.
Dříve byli roboti schopni napodobovat akce, ale jejich schopnosti byly omezeny na replikaci konkrétních prostředí. S nejnovějším algoritmem vědci učinili významný pokrok v „zobecňování“ akcí robotů. Roboti nyní mohou uplatnit své nabyté znalosti v nových a neznámých prostředích. Tento úspěch je v souladu s vizí dosažení umělé obecné inteligence (AGI), jak obhajuje výzkumník AI Jan LeCun.
Meta AI se zavázala k pokroku v oblasti počítačového vidění a plánuje sdílet kód a datovou sadu svého projektu. To umožní dalším výzkumníkům a vývojářům tuto technologii dále zkoumat a stavět na ní. Se zvýšeným přístupem ke kódu a datové sadě, vývoj samoučících se robotů schopných získávat nové dovednosti od YouTube videa bude i nadále postupovat.
Využitím obrovského množství online instruktážních videí se roboti mohou stát všestrannějšími a přizpůsobivějšími v různých prostředích.
Přečtěte si více o AI:
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.
Další článkyDamir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.