Augusti 01, 2023

Is GPT-4 På väg att överladda robotik? Varför RT-2 förändrar allt

Publicerad: 01 augusti 2023 kl. 3 Uppdaterad: 58 augusti 01 kl. 2023

Redigerad och faktagranskad: 01 augusti 2023 kl. 3:58

I korthet

Google DeepMind har utvecklat vision-språk modellapplikationer för end-to-end robotstyrning, med fokus på deras förmåga att generalisera och överföra kunskap mellan olika domäner.

RT-2-modellen, designad för att generera sekvenser som kan koda stora mängder information, har testats i olika scenarier, inklusive okända objekt, olika bakgrunder och olika miljöer.

RT-2-modellen överträffar några av sina föregångare när det gäller att anpassa sig till nya förhållanden, till stor del tack vare sin expansiva språkmodell.

Google DeepMind undersökte applikationer för vision-språkmodeller, med fokus på deras potential för end-to-end robotstyrning. Denna undersökning försökte avgöra om dessa modeller var kapabla till bred generalisering. Vidare undersökte man om vissa kognitiva funktioner, såsom resonemang och planering, som ofta förknippas med expansiva språkmodeller, skulle kunna dyka upp i detta sammanhang.

Is GPT-4 På väg att överladda robotik? Varför RT-2 förändrar allt — Credit: Metaverse Post / Stable Diffusion

Den grundläggande utgångspunkten bakom denna utforskning är naturligt kopplad till egenskaperna hos stora språkmodeller (LLM). Sådan modeller är designade för att generera vilken sekvens som helst som kan koda ett stort utbud av information. Detta inkluderar inte bara vanligt språk eller programmeringskod som Python, utan också specifika kommandon som kan styra robotåtgärder.

För att sätta detta i perspektiv, överväg modellens förmåga att förstå och översätta specifika strängsekvenser till handlingsbara robotkommandon. Som en illustration kan en genererad sträng som "1 128 91 241 5 101 127 217" avkodas på följande sätt:

Den första siffran, ett, betyder att uppgiften fortfarande pågår och inte har slutförts.
Den efterföljande taltriaden, 128-91-241, betecknar en relativ och normaliserad förskjutning över de tre dimensionerna av rymden.
Den avslutande uppsättningen, 101-127-217, visar rotationsgraden för robotens funktionella armsegment.

En sådan konfiguration aktiverar roboten att ändra sitt tillstånd över sex frihetsgrader. Att dra en parallell, precis som språkmodeller Assimilera allmänna idéer och koncept från omfattande textdata på internet, extraherar RT-2-modellen kunskap från webbaserad information för att vägleda robotåtgärder.

De potentiella konsekvenserna av detta är betydande. Om en modell exponeras för en kurerad uppsättning banor som i huvudsak indikerar, "för att uppnå ett visst resultat måste robotens gripmekanism röra sig på ett specifikt sätt", så är det naturligt att transformatorn kan generera sammanhängande åtgärder i linje med denna ingång.

En avgörande aspekt under utvärdering var förmågan att utföra nya uppgifter som inte täcks under utbildningen. Detta kan testas på några olika sätt:

1) Okända föremål: Kan modellen replikera en uppgift när den introduceras till objekt som den inte har tränats på? Framgång i denna aspekt beror på att konvertera det visuella flödet från kameran till en vektor, som språkmodellen kan tolka. Modellen bör sedan kunna urskilja dess innebörd, länka en term till dess verkliga motsvarighet och sedan vägleda robotarmen att agera därefter.

2) Olika bakgrunder: Hur reagerar modellen när majoriteten av det visuella flödet består av nya element eftersom bakgrunden av uppgiftens plats har ändrats helt? Till exempel en förändring av tabeller eller till och med en förändring av ljusförhållandena.

3) Varierade miljöer: Förlängning av föregående punkt, vad händer om hela platsen i sig är annorlunda?

För människor verkar dessa scenarier enkla – naturligtvis, om någon kan slänga en burk i sitt rum, borde de kunna göra det utomhus också, eller hur? (Till exempel, jag har observerat några individer i parker som kämpar med denna till synes enkla uppgift). Men för maskiner är dessa utmaningar som återstår att ta itu med.

Grafiska data visar att RT-2-modellen överträffar några av sina föregångare när det gäller att anpassa sig till dessa nya förhållanden. Denna överlägsenhet härrör till stor del från att utnyttja en expansiv språkmodell, berikad av den mängd texter som den har bearbetat under sin träningsfas.

En begränsning som lyfts fram av forskarna är modellens oförmåga att anpassa sig till helt nya färdigheter. Till exempel skulle det inte förstå att lyfta ett föremål från dess vänstra eller högra sida om detta inte har varit en del av dess träning. Däremot gillar språkmodeller ChatGPT har navigerat detta hinder ganska enkelt. Genom att bearbeta stora mängder data över en myriad av uppgifter kan dessa modeller snabbt dechiffrera och agera på nya förfrågningar, även om de aldrig har stött på dem tidigare.

Traditionellt har robotar arbetat med kombinationer av invecklade system. I dessa uppställningar interagerade ofta resonemangssystem på högre nivå och grundläggande manipulationssystem utan effektiv kommunikation, liknande att spela ett spel av "trasig telefon". Föreställ dig att konceptualisera en handling mentalt och sedan behöva förmedla den till din kropp för utförande. Den nyligen introducerade RT-2-modellen effektiviserar denna process. Den ger en enda språkmodell möjlighet att föra sofistikerade resonemang samtidigt som den skickar direkta kommandon till roboten. Det visar att med minimal träningsdata kan roboten utföra aktiviteter som den inte explicit har lärt sig.

Till exempel, för att göra det möjligt för äldre system att kassera avfall, krävde de specifik utbildning för att identifiera, plocka upp och kassera skräp. Däremot har RT-2 redan en grundläggande förståelse för avfall, kan känna igen det utan målinriktad träning och kan kassera det även utan föregående instruktioner om åtgärden. Tänk på den nyanserade frågan "vad är avfall?" Detta är ett utmanande koncept att formalisera. En chipspåse eller bananskal övergår från att vara en vara till avfall efter konsumtion. Sådana förvecklingar behöver ingen explicit förklaring eller separat utbildning; RT-2 dechiffrerar dem med sin inneboende förståelse och agerar därefter.

Här är anledningen till att detta framsteg är avgörande och dess framtida konsekvenser:

Språkmodeller, som RT-2, fungerar som allomfattande kognitiva motorer. Deras förmåga att generalisera och överföra kunskap över domäner gör att de är anpassningsbara till olika applikationer.
Forskarna använde avsiktligt inte de mest avancerade modellerna för sin studie, i syfte att säkerställa att varje modell svarade inom en sekund (vilket innebär en robothandlingsfrekvens på minst 1 Hertz). Hypotetiskt, att integrera en modell som GPT-4 och en överlägsen visuell modell skulle kunna ge ännu mer övertygande resultat.
Omfattande data är fortfarande sparsam. Men övergången från det nuvarande tillståndet till en holistisk datauppsättning, allt från fabriksproduktionslinjer till hushållssysslor, beräknas ta ungefär ett till två år. Detta är en preliminär uppskattning, så experter på området kan erbjuda mer precision. Detta inflöde av data kommer oundvikligen att driva på betydande framsteg.
Medan RT-2 utvecklades med en specifik teknik, finns det många andra metoder. Framtiden kommer troligen att innehålla en fusion av dessa metoder, ytterligare förbättra robotens kapacitet. Ett framtida tillvägagångssätt skulle kunna innebära att utbilda robotar med hjälp av videor av mänskliga aktiviteter. Det finns inget behov av exklusiva inspelningar – plattformar som TikTok och YouTube erbjuder ett stort lager av sådant innehåll.

Läs mer om AI:

Taggar:

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.

fler artiklar

Damir Yalalov