Nyhetsrapport SMW Teknologi
Juni 26, 2023

Meta AI utvecklar en algoritm som gör det möjligt för robotar att lära sig uppgifter från YouTube-videor

I korthet

Forskare har utvecklat en visuell affordance-modell med hjälp av internetvideor av mänskligt beteende för att träna robotar att utföra komplexa uppgifter.

Detta tillvägagångssätt överbryggar gapet mellan statiska datamängder och verkliga robotapplikationer.

Forskarna använder storskaliga mänskliga videodatauppsättningar som Ego4D och Epic Kitchens för att extrahera avfordances och integrera datorseendetekniker med robotmanipulation.

Konceptet Vision-Robotics Bridge (VRB) visar potentialen i detta tillvägagångssätt, vilket gör att robotar kan lära sig av mänskliga videor och skaffa de färdigheter som krävs för komplexa uppgifter.

Meta AI presenterade en ny algoritm som gör det möjligt för robotar att lära sig och replikera mänskliga handlingar genom att titta på YouTube-videor. I en färsk tidning med titeln "Affordances from Human Videos som en mångsidig representation för robotik”, undersöker författarna hur videor av mänskliga interaktioner kan utnyttjas för att träna robotar för att utföra komplexa uppgifter.

Meta AI utvecklar en algoritm som gör det möjligt för robotar att lära sig uppgifter från YouTube-videor
Credit: Metaverse Post (mpost.io)

Denna forskning syftar till att överbrygga klyftan mellan statiska datamängder och verkliga robotapplikationer. Medan tidigare modeller har visat framgång på statiska datauppsättningar, har det varit en utmaning att tillämpa dessa modeller direkt på robotar. Forskarna föreslår att träning av en visuell affordance-modell med hjälp av internetvideor av mänskligt beteende kan vara en lösning. Denna modell uppskattar var och hur en människa sannolikt kommer att interagera i en scen, vilket ger värdefull information för robotar.

Begreppet "affordances" är centralt för detta tillvägagångssätt. Affordances hänvisar till de potentiella handlingar eller interaktioner som ett objekt eller en miljö erbjuder. Genom att förstå möjligheter genom mänskliga videor får roboten en mångsidig representation som gör att den kan utföra olika komplexa uppgifter. Forskarna integrerar sin affordance-modell med fyra olika robotinlärningsparadigm: offline-imitationsinlärning, utforskning, målbetingat lärande och handlingsparameterisering för förstärkning lärande.

Rekommenderas: Topp 100+ ord som kan upptäckas av AI-detektorer 2023

För att extrahera affordances använder forskarna storskaliga mänskliga videodatauppsättningar som Ego4D och Episka kök. De använder hand-objekt-interaktionsdetektorer från hyllan för att identifiera kontaktområdet och spåra handledens bana efter kontakt. Men en viktig utmaning uppstår när människan fortfarande är närvarande i scenen, vilket orsakar en distributionsförskjutning. För att ta itu med detta använder forskarna tillgänglig kamerainformation för att projicera kontaktpunkterna och post-kontaktbanan till en mänsklig-agnostisk ram, som fungerar som input till deras modell.

Tidigare kunde robotar härma handlingar, men deras förmåga var begränsad till att replikera specifika miljöer. Med den senaste algoritmen har forskare gjort betydande framsteg när det gäller att "generalisera" robotåtgärder. Robotar kan nu tillämpa sina förvärvade kunskaper i nya och obekanta miljöer. Denna prestation är i linje med visionen om att uppnå artificiell allmän intelligens (AGI) som förespråkas av AI-forskare Jan LeCun.

Rekommenderas: GPT-4 Löser MIT-examensfrågor med 100 % noggrannhet? Inte sant, säger forskare
Modellen tar den mänskliga-agnostiska ramen som input och producerar två nyckelutgångar
Modellen tar den mänskliga-agnostiska ramen som indata och producerar två nyckelutgångar: en kontaktvärmekarta och handledsvägpunkter. Kontaktvärmekartan indikerar de troliga kontaktpunkterna, medan handledens waypoints förutsäger banan efter kontakt. Dessa utgångar kan användas direkt under slutledningstid och utnyttjar sparsam 3D-information som djup och robotkinematik. / Kredit: robo-affordances.github.io

Meta AI är engagerad i att avancera området för datorseende och planerar att dela med sig av sitt projekts kod och datauppsättning. Detta kommer att göra det möjligt för andra forskare och utvecklare att ytterligare utforska och bygga vidare på denna teknik. Med ökad tillgång till koden och dataset, utvecklingen av självlärande robotar som kan tillägna sig nya färdigheter från YouTube-videor kommer att fortsätta utvecklas.

Modellen tar den mänskliga-agnostiska ramen som input och producerar två nyckelutgångar
För att utvärdera effektiviteten av deras tillvägagångssätt genomförde forskarna experiment i fyra verkliga miljöer som involverade tio olika uppgifter och två robotplattformar som verkar i naturen. Resultaten visade den sömlösa integrationen av datorseende tekniker med robotmanipulation, som visar potentialen i deras Vision-Robotics Bridge (VRB) koncept. / Kredit: robo-affordances.github.io

Genom att utnyttja den stora mängden instruktionsvideor online kan robotar bli mer mångsidiga och anpassningsbara i olika miljöer.

Läs mer om AI:

Ansvarsfriskrivning

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

fler artiklar
Damir Yalalov
Damir Yalalov

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet. 

Hot Stories
Gå med i vårt nyhetsbrev.
Senaste nytt

Lugnet före Solana-stormen: Vad diagram, valar och signaler på kedjan säger nu

Solana har visat starka resultat, drivet av ökande implementering, institutionellt intresse och viktiga partnerskap, samtidigt som den står inför potentiella ...

Lär dig mer

Krypto i april 2025: Viktiga trender, förändringar och vad som kommer härnäst

I april 2025 fokuserade kryptomarknaden på att stärka kärninfrastrukturen, där Ethereum förberedde sig för Pectra ...

Lär dig mer
Läs mer
Läs mer
Vanar integrerar neutronsemantiskt minne i OpenClaw, vilket möjliggör beständigt sessionsöverskridande kontext för autonoma AI-agenter
Nyhetsrapport Teknologi
Vanar integrerar neutronsemantiskt minne i OpenClaw, vilket möjliggör beständigt sessionsöverskridande kontext för autonoma AI-agenter
Februari 11, 2026
Före detta GitHub-VD samlar in rekordsumma på 60 miljoner dollar för att lansera "Entire", nästa plattform för AI-driven mjukvaruutveckling
företag Nyhetsrapport Teknologi
Före detta GitHub-VD samlar in rekordsumma på 60 miljoner dollar för att lansera "Entire", nästa plattform för AI-driven mjukvaruutveckling
Februari 11, 2026
Nytt institutionellt program från Binance–Franklin Templeton möjliggör säkerhet utanför börsen för tokeniserade penningmarknadsfonder
företag Nyhetsrapport Teknologi
Nytt institutionellt program från Binance–Franklin Templeton möjliggör säkerhet utanför börsen för tokeniserade penningmarknadsfonder
Februari 11, 2026
Institutionell finans, betalningsföretag och blockkedjeutvecklare samlas på HSC Asset Management i Hongkong
Hacka säsonger företag Livsstil Marknader Nyhetsrapport Teknologi
Institutionell finans, betalningsföretag och blockkedjeutvecklare samlas på HSC Asset Management i Hongkong
Februari 11, 2026