Nieuwsverslag SMW Technologie
26 June 2023

Meta AI ontwikkelt een algoritme waarmee robots taken van YouTube-video's kunnen leren

In het kort

Onderzoekers hebben een visueel betaalmodel ontwikkeld met behulp van internetvideo's van menselijk gedrag om robots te trainen om complexe taken uit te voeren.

Deze benadering overbrugt de kloof tussen statische datasets en real-world robottoepassingen.

De onderzoekers gebruiken grootschalige menselijke videodatasets zoals Ego4D en Epic Kitchens om betaalbaarheden te extraheren, door computervisietechnieken te integreren met robotmanipulatie.

Het Vision-Robotics Bridge (VRB)-concept toont het potentieel van deze aanpak, waardoor robots kunnen leren van menselijke video's en de vaardigheden kunnen verwerven die nodig zijn voor complexe taken.

Meta AI heeft een nieuw algoritme onthuld waarmee robots menselijke acties kunnen leren en repliceren door YouTube-video's te bekijken. In een recent artikel getiteld “Voordelen van menselijke video's als een veelzijdige representatie voor robotica”, onderzoeken de auteurs hoe video's van menselijke interacties kunnen worden gebruikt om robots te trainen om complexe taken uit te voeren.

Meta AI ontwikkelt een algoritme waarmee robots taken van YouTube-video's kunnen leren
credit: Metaverse Post (mpost.io)

Dit onderzoek heeft tot doel de kloof tussen statische datasets en real-world robottoepassingen te overbruggen. Hoewel eerdere modellen succesvol waren op statische datasets, bleef het een uitdaging om deze modellen rechtstreeks op robots toe te passen. De onderzoekers stellen voor dat het trainen van een visueel betaalbaarheidsmodel met behulp van internetvideo's van menselijk gedrag een oplossing zou kunnen zijn. Dit model schat waar en hoe een mens waarschijnlijk zal interageren in een scène en levert zo waardevolle informatie op voor robots.

Centraal in deze benadering staat het begrip 'affordances'. Affordances verwijzen naar de mogelijke acties of interacties die een object of omgeving biedt. Door de mogelijkheden te begrijpen via menselijke video's, krijgt de robot een veelzijdige weergave waarmee hij verschillende complexe taken kan uitvoeren. De onderzoekers integreren hun betaalbaarheidsmodel met vier verschillende robotleerparadigma's: offline imitatieleren, exploratie, doelgeconditioneerd leren en actieparameterisering voor versterking van leren.

Aanbevolen: Top 100+ woorden detecteerbaar door AI-detectoren in 2023

Om betaalbaarheden te extraheren, gebruiken de onderzoekers grootschalige menselijke videodatasets zoals Ego4D en Epische keukens. Ze gebruiken kant-en-klare hand-object-interactiedetectoren om het contactgebied te identificeren en het traject van de pols na contact te volgen. Een belangrijke uitdaging ontstaat echter wanneer de mens nog steeds aanwezig is in de scène, waardoor er een verschuiving in de distributie ontstaat. Om dit aan te pakken, gebruiken de onderzoekers beschikbare camera-informatie om de contactpunten en het traject na contact te projecteren op een mens-agnostisch frame, dat dient als input voor hun model.

Voorheen waren robots in staat acties na te bootsen, maar hun mogelijkheden waren beperkt tot het repliceren van specifieke omgevingen. Met het nieuwste algoritme hebben onderzoekers aanzienlijke vooruitgang geboekt bij het "generaliseren" van robotacties. Robots kunnen hun opgedane kennis nu toepassen in nieuwe en onbekende omgevingen. Deze prestatie sluit aan bij de visie om kunstmatige algemene intelligentie te bereiken (AGI) zoals bepleit door AI-onderzoeker Jan LeCun.

Aanbevolen: GPT-4 Lost MIT-examenvragen op met 100% nauwkeurigheid? Niet waar, zeggen onderzoekers
Het model neemt het mens-agnostische frame als input en produceert twee belangrijke outputs
Het model neemt het mens-agnostische frame als input en produceert twee belangrijke outputs: een contact-heatmap en pols-waypoints. De contact-heatmap geeft de waarschijnlijke contactpunten aan, terwijl de pols-waypoints het traject na contact voorspellen. Deze outputs kunnen direct worden gebruikt tijdens de inferentietijd, waarbij gebruik wordt gemaakt van schaarse 3D-informatie zoals diepte en robotkinematica. / Krediet: robo-affordances.github.io

Meta AI zet zich in voor vooruitgang op het gebied van computervisie en is van plan de code en dataset van het project te delen. Dit stelt andere onderzoekers en ontwikkelaars in staat om deze technologie verder te onderzoeken en erop voort te bouwen. Met verbeterde toegang tot de code en dataset, de ontwikkeling van zelflerende robots die in staat zijn om nieuwe vaardigheden te verwerven Youtube filmpjes zal blijven vorderen.

Het model neemt het mens-agnostische frame als input en produceert twee belangrijke outputs
Om de doeltreffendheid van hun aanpak te evalueren, voerden de onderzoekers experimenten uit in vier real-world omgevingen met tien verschillende taken en twee robotplatforms die in het wild actief waren. De resultaten toonden de naadloze integratie van technieken voor computervisie met robotmanipulatie, waarmee ze het potentieel van hun Vision-Robotics Bridge (VRB)-concept demonstreren. / Krediet: robo-affordances.github.io

Door gebruik te maken van de enorme hoeveelheid online instructievideo's, kunnen robots veelzijdiger en flexibeler worden in verschillende omgevingen.

Lees meer over AI:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Hot Stories
Schrijf je in op onze nieuwsbrief.
Laatste Nieuws

Van Ripple tot The Big Green DAO: hoe cryptocurrency-projecten bijdragen aan liefdadigheid

Laten we initiatieven onderzoeken die het potentieel van digitale valuta voor goede doelen benutten.

Meer weten

AlphaFold 3, Med-Gemini en anderen: de manier waarop AI de gezondheidszorg transformeert in 2024

AI manifesteert zich op verschillende manieren in de gezondheidszorg, van het blootleggen van nieuwe genetische correlaties tot het versterken van robotchirurgische systemen...

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
Crypto Exchange Jupiter introduceert Jupiter Swap V3, Dynamic Slippage, naast andere belangrijke updates in de komende weken
markten Nieuwsverslag Technologie
Crypto Exchange Jupiter introduceert Jupiter Swap V3, Dynamic Slippage, naast andere belangrijke updates in de komende weken
14 June 2024
Polygon introduceert zijn governance-hub, die een uniforme, transparante interface biedt voor gemeenschapsbestuur
Nieuwsverslag Technologie
Polygon introduceert zijn governance-hub, die een uniforme, transparante interface biedt voor gemeenschapsbestuur 
14 June 2024
Binance registreert meer dan 30 miljoen nieuwe gebruikers in 2024, klantenactiva overschrijden de mijlpaal van $100 miljard
markten Nieuwsverslag Technologie
Binance registreert meer dan 30 miljoen nieuwe gebruikers in 2024, klantenactiva overschrijden de mijlpaal van $100 miljard
14 June 2024
Amazon ondersteunt generatieve AI-startups met een investering van $230 miljoen en wijst $80 miljoen toe aan zijn tweede AWS Generative AI Accelerator-programma
Business Nieuwsverslag Technologie
Amazon ondersteunt generatieve AI-startups met een investering van $230 miljoen en wijst $80 miljoen toe aan zijn tweede AWS Generative AI Accelerator-programma
14 June 2024