Elokuu 01, 2023

Is GPT-4 Aiotko Supercharge Roboticsia? Miksi RT-2 muuttaa kaiken

Julkaistu: 01. elokuuta 2023 klo 3 Päivitetty: 58. elokuuta 01 klo 2023

Muokattu ja faktatarkistettu: 01. elokuuta 2023 klo 3

Lyhyesti

Google DeepMind on kehittänyt visiokielisiä mallisovelluksia varten päästä päähän robottiohjauskeskittyen heidän kykyynsä yleistää ja siirtää tietoa eri aloilla.

RT-2-mallia, joka on suunniteltu luomaan suuria tietomääriä koodaavia sekvenssejä, on testattu erilaisissa skenaarioissa, mukaan lukien tuntemattomat kohteet, erilaiset taustat ja vaihtelevat ympäristöt.

RT-2-malli ylittää jotkin edeltäjänsä sopeutuessaan uusiin olosuhteisiin, suurelta osin sen laajan kielimallin ansiosta.

Google DeepMind tutki visiokielimallisovelluksiakeskittyen heidän mahdollisuuksiinsa päästä päähän robottiohjaukseen. Tässä tutkimuksessa pyrittiin selvittämään, pystyivätkö nämä mallit yleistämään laajasti. Lisäksi tutkittiin, voisivatko tietyt kognitiiviset toiminnot, kuten päättely ja suunnittelu, jotka usein liittyvät ekspansiivisiin kielimalleihin, ilmaantua tässä yhteydessä.

Is GPT-4 Aiotko Supercharge Roboticsia? Miksi RT-2 muuttaa kaiken — Pistetilanne: Metaverse Post / Stable Diffusion

Tämän tutkimuksen taustalla oleva peruslähtökohta liittyy olennaisesti suurten kielimallien (LLM) ominaisuuksiin. Sellainen mallit on suunniteltu luomaan mikä tahansa sekvenssi, joka pystyy koodaamaan suuren määrän tietoa. Tämä ei sisällä vain yleistä kieltä tai ohjelmointikoodia, kuten Python, vaan myös erityisiä komentoja jotka voivat ohjata robotin toimintaa.

Jos haluat tarkastella tätä perspektiiviä, harkitse mallin kykyä ymmärtää ja kääntää tiettyjä merkkijonoja toimiviksi robottikomennoiksi. Esimerkkinä generoitu merkkijono, kuten "1 128 91 241 5 101 127 217", voidaan purkaa seuraavalla tavalla:

Alkunumero yksi tarkoittaa, että tehtävä on vielä kesken eikä sitä ole saatu päätökseen.
Seuraava numerokolmio, 128-91-241, merkitsee suhteellista ja normalisoitua siirtymää avaruuden kolmen ulottuvuuden välillä.
Päätössarja, 101-127-217, osoittaa robotin toiminnallisen käsivarren kiertoasteen.

Sellainen kokoonpano mahdollistaa robotin muuttaa sen tilaa kuuden vapausasteen välillä. Piirrä rinnakkain, aivan kuten kielimalleja RT-2-malli poimii tietoa web-pohjaisista tiedoista robottitoimintojen ohjaamiseksi omaksumaan yleisiä ideoita ja käsitteitä laajasta tekstitiedosta Internetissä.

Tämän mahdolliset seuraukset ovat merkittäviä. Jos malli altistetaan kuratoidulle liikeradalle, joka oleellisesti osoittaa, että "tietyn tuloksen saavuttamiseksi robotin tartuntamekanismin täytyy liikkua tietyllä tavalla", on selvää, että muuntaja voi tuottaa johdonmukaisia toimintoja. tämä syöttö.

Ratkaiseva näkökohta arvioinnissa oli kyky suorittaa uusia tehtäviä, joita ei käsitellä koulutuksen aikana. Tätä voidaan testata muutamalla eri tavalla:

1) Tuntemattomia esineitä: Voiko malli toistaa tehtävän, kun se esitellään objekteille, joihin sitä ei ole koulutettu? Menestys tässä näkökohdassa riippuu kameran visuaalisen syötteen muuntamisesta vektoriksi, jonka kielimalli voi tulkita. Mallin pitäisi sitten pystyä erottamaan sen merkitys, liittää termi todelliseen vastineeseensa ja ohjata robottikättä toimimaan sen mukaisesti.

2) Eri taustoja: Miten malli reagoi, kun suurin osa visuaalisesta syötteestä koostuu uusista elementeistä, koska tehtävän sijainnin taustaa on muutettu kokonaan? Esimerkiksi taulukoiden muutos tai jopa valaistusolosuhteiden muutos.

3) Monipuoliset ympäristöt: Laajenna edellistä kohtaa, entä jos koko sijainti itsessään on erilainen?

Ihmisille nämä skenaariot näyttävät yksinkertaisilta – luonnollisesti, jos joku voi heittää tölkin huoneeseensa, hänen pitäisi voida tehdä se myös ulkona, eikö niin? (Sivuksi olen havainnut muutaman yksilön puistoissa kamppailevan tämän näennäisen yksinkertaisen tehtävän kanssa). Koneiden osalta nämä ovat kuitenkin haasteita, joihin on vielä vastattava.

Graafiset tiedot paljastavat, että RT-2-malli ylittää jotkin edeltäjänsä, kun se sopeutuu näihin uusiin olosuhteisiin. Tämä ylivoima johtuu suurelta osin ekspansiivisen kielimallin hyödyntämisestä, jota rikastuttaa lukuisat tekstit, joita se on käsitellyt koulutusvaiheessaan.

Yksi tutkijoiden korostama rajoite on mallin kyvyttömyys mukautua täysin uusiin taitoihin. Se ei esimerkiksi ymmärtäisi esineen nostamista sen vasemmalta tai oikealta puolelta, jos se ei ole osa sen harjoittelua. Sitä vastoin kielimallit pitävät ChatGPT ovat selvinneet tästä esteestä melko vaivattomasti. Käsittelemällä valtavia tietomääriä lukemattomien tehtävien aikana nämä mallit voivat nopeasti tulkita uusia pyyntöjä ja toimia niiden perusteella, vaikka ne eivät olisi koskaan törmänneet niihin.

Perinteisesti robotit ovat toimineet monimutkaisten järjestelmien yhdistelmillä. Näissä asetuksissa korkeamman tason päättelyjärjestelmät ja perustavanlaatuiset manipulointijärjestelmät toimivat usein vuorovaikutuksessa ilman tehokasta viestintää, samanlainen kuin pelin pelaaminen "rikkinäisestä puhelimesta". Kuvittele, että käsittelisit toiminnon henkisesti ja sinun on sitten välitettävä se kehollesi suorittamista varten. Äskettäin esitelty RT-2-malli virtaviivaistaa tätä prosessia. Se antaa yhden kielen mallin tehdä hienostunutta päättelyä ja lähettää samalla suoria komentoja robotille. Se osoittaa, että minimaalisella harjoitustiedolla robotti voi suorittaa toimintoja, joita se ei ole nimenomaisesti oppinut.

Esimerkiksi, jotta vanhat järjestelmät voisivat hävittää jätteet, ne vaativat erityistä koulutusta roskien tunnistamiseen, keräämiseen ja hävittämiseen. Sitä vastoin RT-2:lla on jo perusymmärrys jätteistä, se tunnistaa sen ilman kohdennettua koulutusta ja pystyy hävittämään sen myös ilman ennakkoohjeistusta. Harkitse vivahteikas kysymystä "mitä on jätettä?" Tämä on haastava konsepti virallistaa. Sirupussi tai banaaninkuori muuttuu tavarasta kulutuksen jälkeen jätteeksi. Tällaiset monimutkaisuudet eivät vaadi selkeää selitystä tai erillistä koulutusta; RT-2 tulkitsee ne käyttämällä sen luontaista ymmärrystä ja toimii sen mukaisesti.

Tästä syystä tämä edistys on keskeinen ja sen tulevaisuuden vaikutukset:

Kielimallit, kuten RT-2, toimivat kaiken kattavina kognitiivisina moottoreina. Heidän kykynsä yleistää ja siirtää tietoa eri aloilla tarkoittaa, että ne ovat mukautuvia erilaisiin sovelluksiin.
Tutkijat eivät tarkoituksella käyttäneet edistyneimpiä malleja tutkimuksessaan, koska he pyrkivät varmistamaan, että jokainen malli reagoi sekunnissa (eli robottitoimintataajuudella vähintään 1 hertsi). Hypoteettisesti integroimalla mallin kaltainen GPT-4 ja ylivoimainen visuaalinen malli voisi tuottaa vieläkin vakuuttavampia tuloksia.
Kattavia tietoja on vielä vähän. Siirtyminen nykytilasta kokonaisvaltaiseen tietoaineistoon, joka ulottuu tehtaiden tuotantolinjoista kotitöihin, kestää kuitenkin noin yhdestä kahteen vuotta. Tämä on alustava arvio, joten alan asiantuntijat voivat tarjota tarkempia tietoja. Tämä tietovirta vie väistämättä merkittäviä edistysaskeleita.
Vaikka RT-2 kehitettiin käyttämällä tiettyä tekniikkaa, on olemassa lukuisia muita menetelmiä. Tulevaisuudessa on todennäköisesti näiden menetelmien fuusio lisäämällä robottivalmiuksia. Yksi mahdollinen lähestymistapa voisi olla robottien kouluttaminen käyttämällä videoita ihmisen toiminnasta. Eksklusiivisia tallennuksia ei tarvita – alustat, kuten TikTok ja YouTube, tarjoavat laajan arkiston tällaista sisältöä.

Lue lisää tekoälystä:

Tunnisteet:

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.

lisää artikkeleita

Damir Yalalov