Novinky SMW Technika
26. června, 2023

Meta AI vyvíjí algoritmus, který robotům umožňuje učit se úkoly z videí na YouTube

Stručně

Výzkumníci vyvinuli model vizuální adopce využívající internetová videa lidského chování k výcviku robotů k provádění složitých úkolů.

Tento přístup překlenuje propast mezi statickými datovými sadami a robotickými aplikacemi v reálném světě.

Výzkumníci používají rozsáhlé datové sady lidského videa, jako jsou Ego4D a Epic Kitchens, k extrakci výhod a integrují techniky počítačového vidění s robotickou manipulací.

Koncept Vision-Robotics Bridge (VRB) ukazuje potenciál tohoto přístupu a umožňuje robotům učit se z lidských videí a získávat dovednosti potřebné pro složité úkoly.

Meta AI odhalila nový algoritmus, který umožňuje robotům učit se a replikovat lidské činy sledováním videí na YouTube. V nedávném článku s názvem „Přínosy z lidských videí jako všestranná reprezentace pro robotiku“, autoři zkoumají, jak lze videa lidských interakcí využít k výcviku robotů k provádění složitých úkolů.

Meta AI vyvíjí algoritmus, který robotům umožňuje učit se úkoly z videí na YouTube
Credit: Metaverse Post (mpost.io)

Tento výzkum si klade za cíl překlenout propast mezi statickými datovými sadami a robotickými aplikacemi v reálném světě. Zatímco předchozí modely prokázaly úspěch na statických souborech dat, aplikace těchto modelů přímo na roboty zůstala výzvou. Výzkumníci navrhují trénovat model vizuálního přístupu pomocí internetových videí lidského chování. Tento model odhaduje, kde a jak pravděpodobně bude člověk na scéně interagovat, a poskytuje tak cenné informace pro roboty.

Koncept „dovolení“ je ústředním bodem tohoto přístupu. Affordance se týkají potenciálních akcí nebo interakcí, které objekt nebo prostředí nabízí. Pochopením možností prostřednictvím lidských videí získá robot všestrannou reprezentaci, která mu umožňuje provádět různé složité úkoly. Výzkumníci integrují svůj model dotace se čtyřmi různými paradigmaty učení robotů: offline imitační učení, průzkum, učení podmíněné cílem a parametrizace akcí pro posilování učení.

Doporučená: Top 100+ slov detekovatelných pomocí detektorů umělé inteligence v roce 2023

K extrakci finančních prostředků využívají výzkumníci rozsáhlé datové soubory lidského videa, jako je např Ego4D si Epické kuchyně. Používají běžně dostupné detektory interakce ruka-objekt k identifikaci kontaktní oblasti a sledování trajektorie zápěstí po kontaktu. Důležitý problém však nastává, když je na scéně stále přítomen člověk, což způsobuje distribuční posun. K vyřešení tohoto problému výzkumníci používají dostupné informace z kamery k projekci kontaktních bodů a post-kontaktní trajektorie do lidského agnostického rámce, který slouží jako vstup do jejich modelu.

Dříve byli roboti schopni napodobovat akce, ale jejich schopnosti byly omezeny na replikaci konkrétních prostředí. S nejnovějším algoritmem vědci učinili významný pokrok v „zobecňování“ akcí robotů. Roboti nyní mohou uplatnit své nabyté znalosti v nových a neznámých prostředích. Tento úspěch je v souladu s vizí dosažení umělé obecné inteligence (AGI), jak obhajuje výzkumník AI Jan LeCun.

Doporučená: GPT-4 Řešíte otázky ke zkoušce MIT se 100% přesností? Není to pravda, říkají výzkumníci
Model bere lidsko-agnostický rámec jako vstup a vytváří dva klíčové výstupy
Model bere jako vstup lidský agnostický snímek a vytváří dva klíčové výstupy: kontaktní teplotní mapu a body na zápěstí. Tepelná mapa kontaktu ukazuje pravděpodobné body kontaktu, zatímco body na zápěstí předpovídají trajektorii po kontaktu. Tyto výstupy lze přímo použít během inferenční doby, přičemž se využívají řídké 3D informace, jako je hloubka a kinematika robota. / Kredit: robo-affordances.github.io

Meta AI se zavázala k pokroku v oblasti počítačového vidění a plánuje sdílet kód a datovou sadu svého projektu. To umožní dalším výzkumníkům a vývojářům tuto technologii dále zkoumat a stavět na ní. Se zvýšeným přístupem ke kódu a datové sadě, vývoj samoučících se robotů schopných získávat nové dovednosti od YouTube videa bude i nadále postupovat.

Model bere lidsko-agnostický rámec jako vstup a vytváří dva klíčové výstupy
Aby vědci vyhodnotili účinnost svého přístupu, provedli experimenty ve čtyřech reálných prostředích zahrnujících deset různých úkolů a dvě robotické platformy fungující ve volné přírodě. Výsledky ukázaly bezproblémovou integraci techniky počítačového vidění s robotickou manipulací, předvádějící potenciál svého konceptu Vision-Robotics Bridge (VRB). / Kredit: robo-affordances.github.io

Využitím obrovského množství online instruktážních videí se roboti mohou stát všestrannějšími a přizpůsobivějšími v různých prostředích.

Přečtěte si více o AI:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Klid před bouří Solana: Co nyní říkají grafy, velryby a signály na řetězci

Solana prokázala silné výsledky, které byly poháněny rostoucím přijetím, zájmem institucí a klíčovými partnerstvími, a zároveň čelí potenciálnímu...

Vědět více

Kryptoměny v dubnu 2025: Klíčové trendy, posuny a co bude dál

V dubnu 2025 se kryptoměnový prostor zaměřil na posílení základní infrastruktury, přičemž Ethereum se připravovalo na Pectru...

Vědět více
Více
Více informací
Bitget Wallet jmenuje veterána BCG Willa Wua vedoucím pro Asii a Pacifik
businessu Novinky
Bitget Wallet jmenuje veterána BCG Willa Wua vedoucím pro Asii a Pacifik
Února 12, 2026
Dvě třetiny dospělých považují finanční gramotnost za atraktivní vlastnost, ukazuje průzkum OKX
Novinky Technika
Dvě třetiny dospělých považují finanční gramotnost za atraktivní vlastnost, ukazuje průzkum OKX
Února 12, 2026
Společnost Solus Partners zveřejnila přelomovou zprávu o institucionálním průlomu sítě Canton Network: Co očekávat v roce 2026?
Novinky Technika
Společnost Solus Partners zveřejnila přelomovou zprávu o institucionálním průlomu sítě Canton Network: Co očekávat v roce 2026?
Února 12, 2026
Transak se integruje s MegaETH a poskytuje okamžitý přístup k převodu fiat měn na ETH na vysokorychlostní vrstvě 2
Novinky Technika
Transak se integruje s MegaETH a poskytuje okamžitý přístup k převodu fiat měn na ETH na vysokorychlostní vrstvě 2
Února 12, 2026
CRYPTOMERIA LABS PTE. LTD.