August 01, 2023

Is GPT-4 Er du ved at supercharge robotics? Hvorfor RT-2 ændrer alt

Udgivet: 01. august 2023 kl. 3 Opdateret: 58. august 01 kl. 2023

Redigeret og faktatjekket: 01. august 2023 kl. 3:58

Kort sagt

Google DeepMind har udviklet vision-sprogmodelapplikationer til ende-til-ende robotstyring, med fokus på deres evne til at generalisere og overføre viden på tværs af domæner.

RT-2-modellen, designet til at generere sekvenser, der er i stand til at kode store mængder information, er blevet testet i forskellige scenarier, herunder ukendte objekter, forskellige baggrunde og forskellige miljøer.

RT-2-modellen overgår nogle af sine forgængere med at tilpasse sig nye forhold, hovedsagelig på grund af dens ekspansive sprogmodel.

Google DeepMind undersøgte vision-sprogmodelapplikationer, med fokus på deres potentiale for end-to-end robotstyring. Denne undersøgelse søgte at afgøre, om disse modeller var i stand til bred generalisering. Endvidere undersøgte den, om visse kognitive funktioner, såsom ræsonnement og planlægning, som ofte forbindes med ekspansive sprogmodeller, kunne opstå i denne sammenhæng.

Is GPT-4 Er du ved at supercharge robotics? Hvorfor RT-2 ændrer alt — Credit: Metaverse Post / Stable Diffusion

Den grundlæggende forudsætning bag denne udforskning er uløseligt forbundet med egenskaberne ved store sprogmodeller (LLM'er). Sådan modeller er designet til at generere enhver sekvens, der er i stand til at kode en bred vifte af information. Dette inkluderer ikke kun almindeligt sprog eller programmeringskode som Python, men også specifikke kommandoer der kan guide robothandlinger.

For at sætte dette i perspektiv skal du overveje modellens evne til at forstå og oversætte specifikke strengsekvenser til handlingsrettede robotkommandoer. Som en illustration kan en genereret streng som "1 128 91 241 5 101 127 217" afkodes på følgende måde:

Det første ciffer, et, betyder, at opgaven stadig er i gang og ikke er afsluttet.
Den efterfølgende triade af tal, 128-91-241, angiver et relativt og normaliseret skift på tværs af rummets tre dimensioner.
Det afsluttende sæt, 101-127-217, viser rotationsgraden af robottens funktionelle armsegment.

Sådan en konfiguration aktiverer robotten at ændre sin tilstand på tværs af seks frihedsgrader. At tegne en parallel, ligesom sprogmodeller assimilerer generelle ideer og koncepter fra store tekstdata på internettet, udtrækker RT-2-modellen viden fra webbaseret information for at guide robothandlinger.

De potentielle konsekvenser af dette er betydelige. Hvis en model udsættes for et kurateret sæt af baner, der i det væsentlige indikerer, "for at opnå et bestemt resultat, skal robottens gribemekanisme bevæge sig på en bestemt måde", så er det naturligt, at transformatoren kunne generere sammenhængende handlinger i overensstemmelse med dette input.

Et afgørende aspekt under evaluering var kapaciteten til udføre nye opgaver, der ikke er dækket under uddannelsen. Dette kan testes på et par forskellige måder:

1) Ukendte objekter: Kan modellen replikere en opgave, når den introduceres til objekter, den ikke er blevet trænet i? Succes i dette aspekt afhænger af at konvertere det visuelle feed fra kameraet til en vektor, som sprogmodellen kan fortolke. Modellen skulle så være i stand til at skelne dens betydning, forbinde et begreb med dets modstykke i den virkelige verden og efterfølgende guide robotarmen til at handle i overensstemmelse hermed.

2) Forskellige baggrunde: Hvordan reagerer modellen, når størstedelen af det visuelle feed består af nye elementer, fordi baggrunden for opgavens placering er blevet fuldstændig ændret? For eksempel en ændring i tabeller eller endda et skift i lysforhold.

3) Varierede miljøer: Udvider det foregående punkt, hvad nu hvis hele placeringen i sig selv er anderledes?

For mennesker virker disse scenarier ligetil - naturligvis, hvis nogen kan kassere en dåse i deres værelse, burde de også være i stand til at gøre det udendørs, ikke? (På en sidebemærkning har jeg observeret et par individer i parker, der kæmper med denne tilsyneladende simple opgave). Men for maskiner er disse udfordringer, der skal løses.

Grafiske data afslører, at RT-2-modellen overgår nogle af sine forgængere, når det kommer til at tilpasse sig disse nye forhold. Denne overlegenhed stammer i høj grad fra at udnytte en ekspansiv sprogmodel, beriget af den overflod af tekster, den har behandlet i løbet af sin træningsfase.

En begrænsning, som forskerne fremhæver, er modellens manglende evne til at tilpasse sig helt nye færdigheder. For eksempel ville det ikke forstå at løfte en genstand fra venstre eller højre side, hvis dette ikke har været en del af dets træning. Derimod kan sprogmodeller gerne ChatGPT har navigeret denne forhindring ret ubesværet. Ved at behandle enorme mængder data på tværs af et utal af opgaver kan disse modeller hurtigt dechifrere og reagere på nye anmodninger, selvom de aldrig har stødt på dem før.

Traditionelt har robotter opereret ved hjælp af kombinationer af indviklede systemer. I disse opsætninger interagerede ræsonnementsystemer på højere niveau og grundlæggende manipulationssystemer ofte uden effektiv kommunikation, beslægtet med at spille et spil af "brudt telefon". Forestil dig at konceptualisere en handling mentalt, og derefter have behov for at videresende den til din krop til udførelse. Den nyligt introducerede RT-2-model strømliner denne proces. Det giver en enkelt sprogmodel mulighed for at udføre sofistikerede ræsonnementer, mens den også sender direkte kommandoer til robotten. Det viser, at med minimal træningsdata kan robotten udføre aktiviteter, den ikke eksplicit har lært.

For at gøre det muligt for ældre systemer at skille sig af med affald, krævede de specifik træning for at identificere, samle op og bortskaffe affald. I modsætning hertil besidder RT-2 allerede en grundlæggende forståelse af affald, kan genkende det uden målrettet træning og kan bortskaffe det selv uden forudgående instruktion om handlingen. Overvej det nuancerede spørgsmål, "hvad er affald?" Dette er et udfordrende koncept at formalisere. En chipspose eller bananskræl går fra at være en vare til at gå til spilde efter forbrug. Sådanne forviklinger behøver ikke eksplicit forklaring eller separat træning; RT-2 dechifrerer dem ved hjælp af dens iboende forståelse og handler derefter.

Her er grunden til, at dette fremskridt er afgørende og dets fremtidige implikationer:

Sprogmodeller, som RT-2, fungerer som altomfattende kognitive motorer. Deres evne til at generalisere og overføre viden på tværs af domæner betyder, at de kan tilpasses til forskellige applikationer.
Forskerne brugte med vilje ikke de mest avancerede modeller til deres undersøgelse, med det formål at sikre, at hver model reagerede inden for et sekund (hvilket betyder en robothandlingsfrekvens på mindst 1 Hertz). Hypotetisk, at integrere en model som GPT-4 og en overlegen visuel model kunne give endnu mere overbevisende resultater.
Omfattende data er stadig sparsomme. Men overgangen fra den nuværende tilstand til et holistisk datasæt, der spænder fra fabrikkens produktionslinjer til huslige gøremål, forventes at tage omkring et til to år. Dette er et foreløbigt skøn, så eksperter på området kan tilbyde mere præcision. Denne tilstrømning af data vil uundgåeligt drive betydelige fremskridt.
Mens RT-2 blev udviklet ved hjælp af en specifik teknik, findes der adskillige andre metoder. Fremtiden rummer sandsynligvis en fusion af disse metoder, yderligere forbedring af robotegenskaber. En fremadrettet tilgang kunne involvere træning af robotter ved hjælp af videoer af menneskelige aktiviteter. Der er ikke behov for eksklusive optagelser – platforme som TikTok og YouTube tilbyder et stort lager af sådant indhold.

Læs mere om AI:

tags:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.

Flere artikler

Damir Yalalov