Avgust 01, 2023

Is GPT-4 Ste pripravljeni na Supercharge Robotics? Zakaj RT-2 spremeni vse

Objavljeno: 01. avgust 2023 ob 3. Posodobljeno: 58. avgust 01 ob 2023

Urejeno in preverjeno: 01. avgust 2023 ob 3

Na kratko

Google DeepMind je razvil aplikacije za modele vizualnega jezika za robotsko krmiljenje od konca do konca, s poudarkom na njihovi sposobnosti posploševanja in prenosa znanja med področji.

Model RT-2, zasnovan za ustvarjanje zaporedij, ki lahko kodirajo ogromne količine informacij, je bil preizkušen v različnih scenarijih, vključno z neznanimi predmeti, različnimi ozadji in različnimi okolji.

Model RT-2 prekaša nekatere svoje predhodnike pri prilagajanju novim razmeram, predvsem zaradi ekspanzivnega jezikovnega modela.

Google DeepMind je preiskoval aplikacije za modele vidnega jezika, s poudarkom na njihovem potencialu za robotsko krmiljenje od konca do konca. Ta preiskava je skušala ugotoviti, ali so ti modeli zmožni široke posplošitve. Poleg tega je raziskalo, ali bi se v tem kontekstu lahko pojavile nekatere kognitivne funkcije, kot sta sklepanje in načrtovanje, ki so pogosto povezane z ekspanzivnimi jezikovnimi modeli.

Is GPT-4 Ste pripravljeni na Supercharge Robotics? Zakaj RT-2 spremeni vse — Zasluge: Metaverse Post / Stable Diffusion

Temeljna predpostavka tega raziskovanja je neločljivo povezana z značilnostmi velikih jezikovnih modelov (LLM). Takšna modeli so zasnovani za ustvarjanje katero koli zaporedje, ki lahko kodira široko paleto informacij. To ne vključuje samo skupnega jezika ali programske kode, kot je Python, ampak tudi posebne ukaze ki lahko vodijo robotska dejanja.

Če želite to predstaviti v perspektivi, upoštevajte sposobnost modela, da razume in prevede določena zaporedja nizov v delujoče robotske ukaze. Za ponazoritev lahko ustvarjeni niz, kot je »1 128 91 241 5 101 127 217«, dekodiramo na naslednji način:

Začetna številka, ena, pomeni, da naloga še vedno poteka in ni dokončana.
Naslednja triada števil, 128-91-241, označuje relativni in normaliziran premik v treh dimenzijah prostora.
Zaključni niz, 101-127-217, natančno določa stopnjo rotacije segmenta funkcionalne roke robota.

Takšna konfiguracija omogoča robotu da spremeni svoje stanje v šestih prostostnih stopnjah. Vleči vzporednico, tako kot jezikovni modeli asimilirati splošne ideje in koncepte iz obsežnih besedilnih podatkov na internetu, model RT-2 pridobiva znanje iz spletnih informacij za vodenje robotskih dejanj.

Morebitne posledice tega so pomembne. Če je model izpostavljen kuriranemu naboru trajektorij, ki v bistvu nakazujejo, "da se mora robotov prijemalni mehanizem premakniti na določen način, da bi dosegli določen rezultat", potem je logično, da lahko transformator ustvari skladna dejanja v skladu z ta vnos.

Ključni vidik pri ocenjevanju je bila zmožnost izvajati nove naloge, ki niso bile zajete med usposabljanjem. To je mogoče preizkusiti na nekaj različnih načinov:

1) Neznani predmeti: Ali lahko model ponovi nalogo, ko je predstavljen predmetom, na katerih se ni usposabljal? Uspeh v tem pogledu je odvisen od pretvorbe vizualnega vira iz kamere v vektor, ki ga jezikovni model lahko interpretira. Model bi moral biti nato sposoben razbrati njegov pomen, povezati izraz z njegovim nasprotnikom iz resničnega sveta in nato voditi robotsko roko, da ustrezno ukrepa.

2) Različna ozadja: Kako se model odzove, ko je večina vizualnega vira sestavljena iz novih elementov, ker je bilo ozadje lokacije naloge popolnoma spremenjeno? Na primer sprememba miz ali celo sprememba svetlobnih pogojev.

3) Raznolika okolja: Če razširimo prejšnjo točko, kaj če je celotna lokacija drugačna?

Za ljudi se ti scenariji zdijo enostavni – seveda, če lahko nekdo zavrže pločevinko v svoji sobi, bi moral to imeti možnost storiti tudi zunaj, kajne? (Mimogrede, opazil sem nekaj posameznikov v parkih, ki se spopadajo s to na videz preprosto nalogo). Toda za stroje so to izzivi, ki jih je treba še obravnavati.

Grafični podatki razkrivajo, da model RT-2 prekaša nekatere svoje predhodnike, ko gre za prilagajanje novim razmeram. Ta superiornost v veliki meri izhaja iz uporabe ekspanzivnega jezikovnega modela, obogatenega z množico besedil, ki jih je obdelal med fazo usposabljanja.

Ena omejitev, ki so jo poudarili raziskovalci, je nezmožnost modela, da se prilagodi popolnoma novim veščinam. Na primer, ne bi razumel dvigovanja predmeta z leve ali desne strani, če to ne bi bilo del njegovega usposabljanja. V nasprotju s tem jezikovni modeli kot ChatGPT so to oviro premagali precej lahkotno. Z obdelavo ogromnih količin podatkov v neštetih nalogah lahko ti modeli hitro dešifrirajo nove zahteve in se nanje odzovejo, tudi če se z njimi še nikoli niso srečali.

Tradicionalno so roboti delovali s kombinacijami zapletenih sistemov. V teh nastavitvah so sistemi razmišljanja na višji ravni in temeljni sistemi manipulacije pogosto sodelovali brez učinkovite komunikacije, podobno igranju igre "pokvarjenega telefona". Predstavljajte si, da mentalno zamislite dejanje, nato pa ga morate posredovati svojemu telesu za izvedbo. Na novo predstavljeni model RT-2 poenostavlja ta proces. Omogoča en sam jezikovni model za prefinjeno sklepanje, hkrati pa pošilja neposredne ukaze robotu. Dokazuje, da lahko robot z minimalnimi podatki o usposabljanju izvaja dejavnosti, ki se jih ni izrecno naučil.

Na primer, da bi starejši sistemi lahko zavrgli odpadke, so potrebovali posebno usposabljanje za prepoznavanje, pobiranje in odstranjevanje smeti. Nasprotno pa RT-2 že ima osnovno razumevanje odpadkov, jih lahko prepozna brez ciljnega usposabljanja in jih lahko odstrani tudi brez predhodnih navodil o ravnanju. Razmislite o niansiranem vprašanju, "kaj je odpadek?" To je koncept, ki ga je težko formalizirati. Vrečka za čips ali bananin olupek se po porabi spremeni iz predmeta v odpadek. Takšne zapletenosti ne potrebujejo eksplicitne razlage ali ločenega usposabljanja; RT-2 jih dešifrira s svojim inherentnim razumevanjem in deluje v skladu s tem.

Tukaj je razlog, zakaj je ta napredek ključen in njegove prihodnje posledice:

Jezikovni modeli, kot je RT-2, delujejo kot vseobsegajoči kognitivni motorji. Njihova sposobnost posploševanja in prenosa znanja med domenami pomeni, da so prilagodljivi različnim aplikacijam.
Raziskovalci namenoma niso uporabili najnaprednejših modelov za svojo študijo, saj so želeli zagotoviti, da se bo vsak model odzval v eni sekundi (kar pomeni frekvenco robotskega delovanja vsaj 1 Hertz). Hipotetično, integracija modela, kot je GPT-4 in vrhunski vizualni model lahko prinese še bolj prepričljive rezultate.
Celoviti podatki so še vedno redki. Vendar pa bo prehod s trenutnega stanja na celovit nabor podatkov, ki sega od tovarniških proizvodnih linij do domačih opravil, predvidoma trajal približno eno do dve leti. To je okvirna ocena, zato bodo strokovnjaki s tega področja morda ponudili večjo natančnost. Ta dotok podatkov bo neizogibno spodbudil pomemben napredek.
Čeprav je bil RT-2 razvit s posebno tehniko, obstajajo številne druge metode. Prihodnost verjetno prinaša fuzijo teh metodologij izboljšanje robotskih zmogljivosti. Eden od možnih pristopov bi lahko vključeval usposabljanje robotov z uporabo videoposnetkov človeških dejavnosti. Ekskluzivni posnetki niso potrebni – platforme, kot sta TikTok in YouTube, ponujajo obsežno skladišče takšnih vsebin.

Preberite več o AI:

Tags:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.

več člankov

Damir Yalalov