Rugpjūtis 01, 2023

Is GPT-4 Ketinate Supercharge Robotics? Kodėl RT-2 viską keičia

Paskelbta: 01 m. rugpjūčio 2023 d., 3 val. Atnaujinta: 58 m. rugpjūčio 01 d., 2023 val.

Redaguota ir patikrinta faktais: 01 m. rugpjūčio 2023 d., 3 val.

Trumpai

„Google DeepMind“ sukūrė vizijos kalbos modelių programas nuo galo iki galo robotizuotas valdymas, sutelkiant dėmesį į jų gebėjimą apibendrinti ir perduoti žinias įvairiose srityse.

RT-2 modelis, sukurtas generuoti sekas, galinčias užkoduoti didelius informacijos kiekius, buvo išbandytas įvairiuose scenarijuose, įskaitant nepažįstamus objektus, skirtingą foną ir įvairias aplinkas.

RT-2 modelis lenkia kai kuriuos savo pirmtakus prisitaikydamas prie naujų sąlygų, daugiausia dėl savo plataus kalbos modelio.

„Google DeepMind“ ištyrė vizijos kalbos modelių programas, sutelkiant dėmesį į jų potencialą visapusiškai valdyti robotus. Šiuo tyrimu buvo siekiama nustatyti, ar šiuos modelius galima plačiai apibendrinti. Be to, buvo ištirta, ar šiame kontekste gali atsirasti tam tikros pažinimo funkcijos, tokios kaip samprotavimas ir planavimas, kurios dažnai siejamos su plačiais kalbos modeliais.

Is GPT-4 Ketinate Supercharge Robotics? Kodėl RT-2 viską keičia — Kreditas: Metaverse Post / Stable Diffusion

Pagrindinė šio tyrimo prielaida yra iš esmės susijusi su didelių kalbų modelių (LLM) savybėmis. Toks modeliai yra skirti generuoti bet kokia seka, galinti užkoduoti daugybę informacijos. Tai apima ne tik bendrą kalbą ar programavimo kodą, pvz., Python, bet ir konkrečias komandas kurie gali vadovauti robotų veiksmams.

Norėdami tai įvertinti, apsvarstykite modelio gebėjimą suprasti ir paversti konkrečias eilučių sekas į veiksmingą robotų komandą. Pavyzdžiui, sugeneruotą eilutę, pvz., „1 128 91 241 5 101 127 217“, galima iššifruoti tokiu būdu:

Pradinis skaitmuo vienas reiškia, kad užduotis vis dar vykdoma ir dar nebaigta.
Vėlesnė skaičių triada, 128-91-241, žymi santykinį ir normalizuotą poslinkį per tris erdvės matmenis.
Baigiamasis rinkinys, 101-127-217, tiksliai nustato roboto funkcinės rankos segmento sukimosi laipsnį.

Tokia konfigūracija įgalina robotą pakeisti savo būseną per šešis laisvės laipsnius. Brėžti paralelę, lygiai taip pat kalbos modeliai asimiliuoti bendras idėjas ir sąvokas iš didžiulių tekstinių duomenų internete, RT-2 modelis ištraukia žinias iš žiniatinklio informacijos, kad vadovautų robotų veiksmams.

Galimos to pasekmės yra reikšmingos. Jei modelis yra veikiamas kuruojamų trajektorijų rinkinio, kuris iš esmės rodo, kad „norint pasiekti tam tikrą rezultatą, roboto sugriebimo mechanizmas turi judėti tam tikru būdu“, tada akivaizdu, kad transformatorius gali sukurti nuoseklius veiksmus, atitinkančius ši įvestis.

Esminis vertinamas aspektas buvo gebėjimas atlikti naujas užduotis, kurios nebuvo įtrauktos per mokymą. Tai galima išbandyti keliais skirtingais būdais:

1) Nepažįstami objektai: Ar modelis gali pakartoti užduotį, kai supažindinamas su objektais, kurių jis nebuvo išmokytas? Sėkmė šiuo aspektu priklauso nuo vaizdo informacijos perdavimo iš fotoaparato pavertimo vektoriumi, kurį kalbos modelis gali interpretuoti. Tada modelis turėtų sugebėti suprasti jo reikšmę, susieti terminą su jo atitikmeniu realiame pasaulyje ir vėliau nukreipti roboto ranką atitinkamai veikti.

2) Skirtingi pagrindai: Kaip modelis reaguoja, kai didžiąją vaizdinės informacijos santraukos dalį sudaro nauji elementai, nes užduoties vietos fonas buvo visiškai pakeistas? Pavyzdžiui, lentelių pasikeitimas ar net apšvietimo sąlygų pasikeitimas.

3) Įvairios aplinkos: Praplėtus ankstesnį tašką, o jei visa vieta skiriasi?

Žmonėms šie scenarijai atrodo nesudėtingi – natūralu, kad jei kas nors gali išmesti skardinę savo kambaryje, tai turėtų galėti tai padaryti ir lauke, tiesa? (Šoninėje pastaboje pastebėjau, kad keli asmenys parkuose kovoja su šia, atrodytų, paprasta užduotimi). Tačiau mašinų atveju tai yra iššūkiai, kuriuos dar reikia išspręsti.

Grafiniai duomenys atskleidžia, kad RT-2 modelis lenkia kai kuriuos savo pirmtakus, kai reikia prisitaikyti prie šių naujų sąlygų. Šis pranašumas daugiausia kyla dėl plataus kalbos modelio, praturtinto gausybe tekstų, kuriuos jis apdorojo mokymo etape, panaudojimo.

Vienas iš tyrėjų akcentuotų apribojimų yra modelio nesugebėjimas prisitaikyti prie visiškai naujų įgūdžių. Pavyzdžiui, ji nesuvoktų objekto pakėlimo iš kairės ar dešinės pusės, jei tai nebuvo jo mokymo dalis. Priešingai, kalbos modeliai mėgsta ChatGPT gana be pastangų įveikė šią kliūtį. Apdorojant didžiulius duomenų kiekius atliekant daugybę užduočių, šie modeliai gali greitai iššifruoti ir veikti pagal naujas užklausas, net jei anksčiau su jomis nebuvo susidūrę.

Tradiciškai robotai veikė naudodami sudėtingų sistemų derinius. Šiose sąrankose aukštesnio lygio samprotavimo sistemos ir pagrindinės manipuliavimo sistemos dažnai sąveikaudavo be veiksmingo ryšio, panašus į žaidimą „sugedęs telefonas“. Įsivaizduokite, kaip konceptualizuojate veiksmą mintyse, o tada turite perduoti tai savo kūnui, kad jis būtų įvykdytas. Naujai pristatytas RT-2 modelis supaprastina šį procesą. Ji suteikia galimybę vienos kalbos modeliui atlikti sudėtingus samprotavimus, kartu siunčiant tiesiogines komandas robotui. Tai parodo, kad turėdamas minimalius treniruočių duomenis robotas gali atlikti veiklą, kurios jis aiškiai neišmoko.

Pavyzdžiui, kad senesnės sistemos galėtų išmesti atliekas, joms reikėjo specialaus mokymo atpažinti, surinkti ir išmesti šiukšles. Priešingai, RT-2 jau turi esminį atliekų supratimą, gali jas atpažinti be tikslinio mokymo ir gali jas išmesti net be išankstinio nurodymo, kaip elgtis. Apsvarstykite niuansuotą klausimą „kas yra atliekos? Tai sudėtinga įforminti sąvoką. Traškučių maišelis ar banano žievelė iš daikto pereina į atliekas po vartojimo. Tokiems sudėtingumams nereikia aiškaus paaiškinimo ar atskiro mokymo; RT-2 jas iššifruoja naudodamas savo įgimtą supratimą ir atitinkamai elgiasi.

Štai kodėl ši pažanga yra esminė ir jos pasekmės ateityje:

Kalbų modeliai, tokie kaip RT-2, veikia kaip visa apimantys pažinimo varikliai. Jų gebėjimas apibendrinti ir perduoti žinias įvairiose srityse reiškia, kad jie gali būti pritaikyti įvairioms programoms.
Tyrėjai savo tyrime sąmoningai nenaudojo pažangiausių modelių, siekdami užtikrinti, kad kiekvienas modelis sureaguotų per sekundę (tai reiškia, kad roboto veikimo dažnis yra ne mažesnis kaip 1 Hz). Hipotetiškai, integruojant tokį modelį kaip GPT-4 ir puikus vizualinis modelis gali duoti dar įtikinamesnių rezultatų.
Išsamių duomenų vis dar nedaug. Tačiau perėjimas nuo dabartinės būsenos prie holistinio duomenų rinkinio, pradedant nuo gamyklos gamybos linijų iki namų ruošos darbų, užtruks maždaug nuo vienerių iki dvejų metų. Tai preliminarus įvertinimas, todėl šios srities ekspertai gali pasiūlyti daugiau tikslumo. Šis duomenų antplūdis neišvengiamai paskatins didelę pažangą.
Nors RT-2 buvo sukurtas naudojant specifinę techniką, egzistuoja daugybė kitų metodų. Ateityje greičiausiai bus šių metodikų sintezė tobulinti robotų galimybes. Vienas iš perspektyvių būdų galėtų apimti robotų mokymą naudojant žmogaus veiklos vaizdo įrašus. Nereikia išskirtinių įrašų – tokios platformos kaip TikTok ir YouTube siūlo didžiulę tokio turinio saugyklą.

Skaitykite daugiau apie AI:

Žymos:

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.

Daugiau straipsnių

Damiras Jalalovas