Analyse Technologie
01 Augustus 2023

Is GPT-4 Staat u op het punt om robotica een boost te geven? Waarom RT-2 alles verandert

In het kort

Google DeepMind heeft hiervoor vision-taalmodelapplicaties ontwikkeld end-to-end robotbesturing, gericht op hun vermogen om kennis over domeinen te generaliseren en over te dragen.

Het RT-2-model, ontworpen om reeksen te genereren die grote hoeveelheden informatie kunnen coderen, is getest in verschillende scenario's, waaronder onbekende objecten, verschillende achtergronden en gevarieerde omgevingen.

Het RT-2-model presteert beter dan sommige van zijn voorgangers bij het aanpassen aan nieuwe omstandigheden, grotendeels dankzij het uitgebreide taalmodel.

Google DeepMind onderzocht toepassingen van vision-language-modellen, gericht op hun potentieel voor end-to-end robotbesturing. Dit onderzoek trachtte vast te stellen of deze modellen in staat waren tot brede generalisatie. Verder onderzocht het of bepaalde cognitieve functies, zoals redeneren en plannen, die vaak worden geassocieerd met expansieve taalmodellen, in deze context zouden kunnen ontstaan.

Is GPT-4 Staat u op het punt om robotica een boost te geven? Waarom RT-2 alles verandert
credit: Metaverse Post / Stable Diffusion

Het fundamentele uitgangspunt achter deze verkenning is intrinsiek verbonden met de kenmerken van grote taalmodellen (LLM's). Zo een modellen zijn ontworpen om te genereren elke reeks die in staat is om een ​​breed scala aan informatie te coderen. Dit omvat niet alleen gemeenschappelijke taal of programmeercode zoals Python, maar ook specifieke commando's die robotacties kunnen sturen.

Om dit in perspectief te plaatsen, moet u eens kijken naar het vermogen van het model om specifieke tekenreeksreeksen te begrijpen en om te zetten in bruikbare robotcommando's. Ter illustratie: een gegenereerde string zoals "1 128 91 241 5 101 127 217" kan op de volgende manier worden gedecodeerd:

  • Het eerste cijfer, één, geeft aan dat de taak nog bezig is en nog niet is voltooid.
  • De volgende triade van getallen, 128-91-241, geeft een relatieve en genormaliseerde verschuiving over de drie dimensies van ruimte aan.
  • De afsluitende set, 101-127-217, geeft de rotatiegraad van het functionele armsegment van de robot aan.

Zo'n configuratie stelt de robot in staat om zijn staat over zes vrijheidsgraden te wijzigen. Een parallel trekken, net als taalmodellen algemene ideeën en concepten assimileren uit enorme tekstuele gegevens op internet, haalt het RT-2-model kennis uit webgebaseerde informatie om robotacties te begeleiden.

De mogelijke gevolgen hiervan zijn aanzienlijk. Als een model wordt blootgesteld aan een samengestelde reeks trajecten die in wezen aangeven dat "om een ​​bepaald resultaat te bereiken, het grijpmechanisme van de robot op een specifieke manier moet bewegen", dan spreekt het voor zich dat de transformator coherente acties kan genereren in overeenstemming met deze invoer.

Een cruciaal aspect bij de evaluatie was het vermogen om nieuwe taken uitvoeren die tijdens de training niet aan bod komen. Dit kan op een aantal verschillende manieren worden getest:

1) onbekende objecten: Kan het model een taak repliceren wanneer het wordt geïntroduceerd bij objecten waarop het niet is getraind? Succes in dit aspect hangt af van het omzetten van de visuele feed van de camera in een vector, die het taalmodel kan interpreteren. Het model moet dan in staat zijn om de betekenis ervan te onderscheiden, een term te koppelen aan zijn tegenhanger in de echte wereld en vervolgens de robotarm te begeleiden om dienovereenkomstig te handelen.

2) Verschillende achtergronden: Hoe reageert het model wanneer het merendeel van de visuele feed uit nieuwe elementen bestaat omdat de achtergrond van de locatie van de taak volledig is veranderd? Bijvoorbeeld een verandering in tafels of zelfs een verandering in lichtomstandigheden.

3) Gevarieerde omgevingen: Uitbreiding van het vorige punt, wat als de hele locatie zelf anders is?

Voor mensen lijken deze scenario's eenvoudig - als iemand een blikje in zijn kamer kan weggooien, moet hij dat natuurlijk ook buitenshuis kunnen doen, toch? (Even terzijde, ik heb een paar individuen in parken geobserveerd die worstelen met deze ogenschijnlijk eenvoudige taak). Maar voor machines zijn dit uitdagingen die nog moeten worden aangepakt.

Grafische gegevens laten zien dat het RT-2-model beter presteert dan sommige van zijn voorgangers als het gaat om aanpassing aan deze nieuwe omstandigheden. Deze superioriteit komt grotendeels voort uit het gebruik van een uitgebreid taalmodel, verrijkt met de overvloed aan teksten die het tijdens de trainingsfase heeft verwerkt.

Een beperking die door de onderzoekers wordt benadrukt, is het onvermogen van het model om zich aan te passen aan geheel nieuwe vaardigheden. Het zou bijvoorbeeld het optillen van een object aan de linker- of rechterkant niet begrijpen als dit geen deel uitmaakte van zijn training. Taalmodellen daarentegen houden van ChatGPT hebben deze hindernis tamelijk moeiteloos genomen. Door enorme hoeveelheden gegevens te verwerken voor een groot aantal taken, kunnen deze modellen snel nieuwe verzoeken ontcijferen en erop reageren, zelfs als ze deze nog nooit eerder zijn tegengekomen.

Traditioneel werkten robots met combinaties van ingewikkelde systemen. In deze opstellingen werkten redeneringssystemen op een hoger niveau en fundamentele manipulatiesystemen vaak samen zonder efficiënte communicatie. vergelijkbaar met het spelen van een spel van "kapotte telefoon". Stel je voor dat je een actie mentaal conceptualiseert en die vervolgens aan je lichaam moet doorgeven voor uitvoering. Het nieuw geïntroduceerde RT-2-model stroomlijnt dit proces. Het stelt een enkelvoudig taalmodel in staat om geavanceerd te redeneren en tegelijkertijd directe opdrachten naar de robot te sturen. Het toont aan dat de robot met minimale trainingsgegevens activiteiten kan uitvoeren die hij niet expliciet heeft geleerd.

Om bijvoorbeeld oudere systemen in staat te stellen afval weg te gooien, hadden ze specifieke training nodig om afval te identificeren, op te halen en weg te gooien. De RT-2 heeft daarentegen al een fundamenteel begrip van afval, kan het herkennen zonder gerichte training en kan het zelfs verwijderen zonder voorafgaande instructie over de actie. Overweeg de genuanceerde vraag: "wat is afval?" Dit is een uitdagend concept om te formaliseren. Een zak chips of bananenschil verandert van item in afval na consumptie. Dergelijke fijne kneepjes hebben geen expliciete uitleg of aparte training nodig; RT-2 ontcijfert ze met behulp van zijn inherente begrip en handelt dienovereenkomstig.

Dit is waarom deze vooruitgang cruciaal is en de toekomstige implicaties ervan:

  • Taalmodellen, zoals RT-2, functioneren als allesomvattende cognitieve motoren. Hun vermogen om kennis over domeinen te generaliseren en over te dragen, betekent dat ze kunnen worden aangepast aan uiteenlopende toepassingen.
  • De onderzoekers hebben voor hun onderzoek bewust niet de meest geavanceerde modellen gebruikt, met als doel ervoor te zorgen dat elk model binnen een seconde reageerde (dat wil zeggen een robotactiefrequentie van minimaal 1 Hertz). Hypothetisch gezien zou het integreren van een model als GPT-4 en superieur visueel model kan nog meer aansprekende resultaten opleveren.
  • Uitgebreide gegevens zijn nog schaars. De overgang van de huidige toestand naar een holistische dataset, variërend van productielijnen in de fabriek tot huishoudelijke taken, zal naar verwachting echter ongeveer een tot twee jaar duren. Dit is een voorlopige schatting, dus experts in het veld kunnen meer precisie bieden. Deze toestroom van gegevens zal onvermijdelijk leiden tot aanzienlijke vooruitgang.
  • Hoewel de RT-2 is ontwikkeld met behulp van een specifieke techniek, bestaan ​​er tal van andere methoden. De toekomst houdt waarschijnlijk een fusie van deze methodologieën in, verder robotcapaciteiten verbeteren. Een mogelijke benadering zou kunnen zijn om robots te trainen met behulp van video's van menselijke activiteiten. Exclusieve opnames zijn niet nodig - platforms zoals TikTok en YouTube bieden een enorme opslagplaats van dergelijke inhoud.

Lees meer over AI:

Disclaimer

In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.

Over de auteur

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

Meer artikelen
Damir Jalalov
Damir Jalalov

Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet. 

De institutionele belangstelling groeit richting Bitcoin ETF’s te midden van volatiliteit

Uit openbaarmakingen via 13F-registraties blijkt dat opmerkelijke institutionele beleggers zich bezighouden met Bitcoin ETF's, wat een groeiende acceptatie onderstreept van ...

Meer weten

De dag van de veroordeling breekt aan: het lot van CZ hangt in evenwicht terwijl de Amerikaanse rechtbank het pleidooi van DOJ in overweging neemt

Changpeng Zhao staat vandaag op het punt te worden veroordeeld door een Amerikaanse rechtbank in Seattle.

Meer weten
Sluit u aan bij onze innovatieve technologiegemeenschap
Lees meer
Lees meer
NuLink wordt gelanceerd op Bybit Web3 IDO-platform. Abonnementsfase wordt verlengd tot 13 mei
Markten Nieuwsverslag Technologie
NuLink wordt gelanceerd op Bybit Web3 IDO-platform. Abonnementsfase wordt verlengd tot 13 mei
9 mei 2024
UXLINK en Binance werken samen aan nieuwe campagne en bieden gebruikers 20 miljoen UXUY-punten en Airdrop Beloningen
Markten Nieuwsverslag Technologie
UXLINK en Binance werken samen aan nieuwe campagne en bieden gebruikers 20 miljoen UXUY-punten en Airdrop Beloningen
9 mei 2024
Side Protocol lanceert een gestimuleerd testnet en introduceert een Insider Point-systeem, waardoor gebruikers SIDE-punten kunnen verdienen
Markten Nieuwsverslag Technologie
Side Protocol lanceert een gestimuleerd testnet en introduceert een Insider Point-systeem, waardoor gebruikers SIDE-punten kunnen verdienen
9 mei 2024
Web3 en Crypto-evenementen in mei 2024: onderzoek naar nieuwe technologieën en opkomende trends in Blockchain en DeFi
Verteren Business Markten Technologie
Web3 en Crypto-evenementen in mei 2024: onderzoek naar nieuwe technologieën en opkomende trends in Blockchain en DeFi
9 mei 2024