Agosto 01, 2023

Is GPT-4 Tungkol sa Supercharge Robotics? Bakit Binabago ng RT-2 ang Lahat

Na-publish: Agosto 01, 2023 sa 3:58 am Na-update: Agosto 01, 2023 sa 3:58 am

Na-edit at na-fact check: Agosto 01, 2023 nang 3:58 am

Sa madaling sabi

Ang Google DeepMind ay nakabuo ng mga application ng modelo ng vision-language para sa end-to-end na robotic na kontrol, na tumutuon sa kanilang kakayahang mag-generalize at maglipat ng kaalaman sa mga domain.

Ang modelo ng RT-2, na idinisenyo upang bumuo ng mga pagkakasunud-sunod na may kakayahang mag-encode ng napakaraming impormasyon, ay nasubok sa iba't ibang mga sitwasyon, kabilang ang mga hindi pamilyar na bagay, iba't ibang background, at iba't ibang kapaligiran.

Ang modelo ng RT-2 ay higit na mahusay ang ilan sa mga nauna nito sa pag-angkop sa mga bagong kundisyon, higit sa lahat dahil sa malawak nitong modelo ng wika.

Inimbestigahan ng Google DeepMind ang mga application ng modelo ng vision-language, na nakatuon sa kanilang potensyal para sa end-to-end na robotic control. Ang pagsisiyasat na ito ay naghangad na matukoy kung ang mga modelong ito ay may kakayahang malawak na paglalahat. Higit pa rito, sinisiyasat nito kung ang ilang mga function ng cognitive, tulad ng pangangatwiran at pagpaplano, na madalas na nauugnay sa mga malawak na modelo ng wika, ay maaaring lumitaw sa kontekstong ito.

Is GPT-4 Tungkol sa Supercharge Robotics? Bakit Binabago ng RT-2 ang Lahat — Pinasasalamatan: Metaverse Post / Stable Diffusion

Ang pangunahing saligan sa likod ng pagsaliksik na ito ay likas na nauugnay sa mga katangian ng malalaking modelo ng wika (LLMs). ganyan ang mga modelo ay idinisenyo upang makabuo anumang sequence na may kakayahang mag-encode ng malawak na hanay ng impormasyon. Kabilang dito hindi lamang ang karaniwang wika o programming code tulad ng Python, kundi pati na rin ang mga partikular na command na maaaring gumabay sa mga robotic na aksyon.

Upang ilagay ito sa pananaw, isaalang-alang ang kakayahan ng modelo na maunawaan at isalin ang mga partikular na sequence ng string sa mga naaaksyunan na robotic command. Bilang isang paglalarawan, ang isang nabuong string gaya ng "1 128 91 241 5 101 127 217" ay maaaring i-decode sa sumusunod na paraan:

Ang paunang digit, isa, ay nagpapahiwatig na ang gawain ay patuloy pa rin at hindi pa natatapos.
Ang kasunod na triad ng mga numero, 128-91-241, ay tumutukoy sa isang kamag-anak at normal na pagbabago sa tatlong dimensyon ng espasyo.
Ang pangwakas na hanay, 101-127-217, ay tumutukoy sa antas ng pag-ikot ng bahagi ng functional na braso ng robot.

Ang ganitong pagsasaayos nagbibigay-daan sa robot upang baguhin ang estado nito sa anim na antas ng kalayaan. Pagguhit ng parallel, tulad ng mga modelo ng wika i-assimilate ang mga pangkalahatang ideya at konsepto mula sa malawak na textual data sa internet, ang RT-2 na modelo ay kumukuha ng kaalaman mula sa web-based na impormasyon upang gabayan ang mga robotic na aksyon.

Ang mga potensyal na implikasyon nito ay makabuluhan. Kung ang isang modelo ay nalantad sa isang na-curate na hanay ng mga trajectory na mahalagang nagsasaad, "upang makamit ang isang partikular na kinalabasan, ang mekanismo ng paghawak ng robot ay kailangang gumalaw sa isang partikular na paraan," kung gayon ito ay makatuwiran na ang transpormer ay maaaring makabuo ng magkakaugnay na mga aksyon alinsunod sa ang input na ito.

Ang isang mahalagang aspeto sa ilalim ng pagsusuri ay ang kapasidad na magsagawa ng mga nobelang gawain na hindi sakop sa panahon ng pagsasanay. Maaari itong masuri sa ilang natatanging paraan:

1) Mga Hindi Kilalang Bagay: Maaari bang kopyahin ng modelo ang isang gawain kapag ipinakilala sa mga bagay na hindi pa ito nasanay? Ang tagumpay sa aspetong ito ay nakasalalay sa pag-convert ng visual feed mula sa camera sa isang vector, na maaaring bigyang-kahulugan ng modelo ng wika. Ang modelo ay dapat na matukoy ang kahulugan nito, iugnay ang isang termino sa real-world na katapat nito, at pagkatapos ay gabayan ang robotic na braso upang kumilos nang naaayon.

2) Iba't ibang Mga Background: Paano tumutugon ang modelo kapag ang karamihan sa visual feed ay binubuo ng mga bagong elemento dahil ang backdrop ng lokasyon ng gawain ay ganap na binago? Halimbawa, isang pagbabago sa mga talahanayan o kahit isang pagbabago sa mga kondisyon ng pag-iilaw.

3) Iba't ibang Kapaligiran: Ang pagpapalawak ng nakaraang punto, paano kung ang buong lokasyon mismo ay iba?

Para sa mga tao, ang mga sitwasyong ito ay mukhang diretso - natural, kung ang isang tao ay maaaring magtapon ng lata sa kanilang silid, dapat ay magagawa rin nila ito sa labas, tama ba? (Sa isang side note, napansin ko ang ilang indibidwal sa mga parke na nahihirapan sa tila simpleng gawaing ito). Gayunpaman, para sa makinarya, ito ay mga hamon na nananatiling tugunan.

Ang graphical na data ay nagpapakita na ang RT-2 na modelo ay higit na mahusay sa ilan sa mga nauna nito pagdating sa pag-angkop sa mga bagong kundisyong ito. Ang superyoridad na ito ay higit na nagmumula sa paggamit ng malawak na modelo ng wika, na pinayaman ng napakaraming mga tekstong naproseso nito sa yugto ng pagsasanay nito.

Ang isang hadlang na itinampok ng mga mananaliksik ay ang kawalan ng kakayahan ng modelo na umangkop sa mga ganap na bagong kasanayan. Halimbawa, hindi nito mauunawaan ang pag-angat ng isang bagay mula sa kaliwa o kanang bahagi nito kung hindi ito naging bahagi ng pagsasanay nito. Sa kaibahan, tulad ng mga modelo ng wika ChatGPT na-navigate ang sagabal na ito sa halip na walang kahirap-hirap. Sa pamamagitan ng pagpoproseso ng napakaraming data sa napakaraming gawain, ang mga modelong ito ay maaaring mabilis na mag-decipher at kumilos ayon sa mga bagong kahilingan, kahit na hindi pa nila ito naranasan.

Ayon sa kaugalian, ang mga robot ay nagpapatakbo gamit ang mga kumbinasyon ng masalimuot na mga sistema. Sa mga setup na ito, ang mga sistema ng pangangatwiran sa mas mataas na antas at mga sistema ng pagmamanipula ng pundasyon ay madalas na nakikipag-ugnayan nang walang mahusay na komunikasyon, parang paglalaro ng “sirang telepono”. Isipin ang pag-konsepto ng isang aksyon sa pag-iisip, pagkatapos ay kailangan mong ihatid iyon sa iyong katawan para sa pagpapatupad. Ang bagong ipinakilala na modelo ng RT-2 ay nag-streamline sa prosesong ito. Binibigyan nito ng kapangyarihan ang isang modelo ng wika upang magsagawa ng sopistikadong pangangatwiran habang nagpapadala din ng mga direktang utos sa robot. Ipinapakita nito na sa kaunting data ng pagsasanay, ang robot ay maaaring magsagawa ng mga aktibidad na hindi nito tahasang natutunan.

Halimbawa, upang paganahin ang mga lumang system na itapon ang basura, kailangan nila ng partikular na pagsasanay upang matukoy, kunin, at itapon ang basura. Sa kaibahan, ang RT-2 ay nagtataglay na ng pangunahing pag-unawa sa basura, nakikilala ito nang walang naka-target na pagsasanay, at maaaring itapon ito kahit na walang paunang pagtuturo sa aksyon. Isaalang-alang ang nuanced na tanong, "ano ang bumubuo ng basura?" Ito ay isang mapaghamong konsepto na gawing pormal. Ang isang chip bag o balat ng saging ay lumilipat mula sa pagiging isang item tungo sa pag-aaksaya pagkatapos ng pagkonsumo. Ang ganitong mga intricacies ay hindi nangangailangan ng tahasang paliwanag o hiwalay na pagsasanay; Tinutukoy ng RT-2 ang mga ito gamit ang likas nitong pag-unawa at kumikilos nang naaayon.

Narito kung bakit mahalaga ang pagsulong na ito at ang mga implikasyon nito sa hinaharap:

Ang mga modelo ng wika, tulad ng RT-2, ay gumagana bilang all-encompassing cognitive engine. Ang kanilang kakayahang mag-generalize at maglipat ng kaalaman sa mga domain ay nangangahulugan na sila ay madaling ibagay sa iba't ibang mga application.
Sinadya ng mga mananaliksik na hindi gumamit ng mga pinaka-advanced na modelo para sa kanilang pag-aaral, na naglalayong tiyaking tumugon ang bawat modelo sa loob ng isang segundo (ibig sabihin, isang robotic na dalas ng pagkilos na hindi bababa sa 1 Hertz). Hypothetically, pagsasama ng isang modelo tulad ng GPT-4 at superior visual na modelo maaaring magbunga ng higit pang nakakahimok na mga resulta.
Kalat pa rin ang komprehensibong data. Gayunpaman, ang paglipat mula sa kasalukuyang estado patungo sa isang holistic na dataset, mula sa mga linya ng produksyon ng pabrika hanggang sa mga gawaing bahay, ay inaasahang aabutin ng humigit-kumulang isa hanggang dalawang taon. Ito ay isang pansamantalang pagtatantya, kaya ang mga eksperto sa larangan ay maaaring mag-alok ng higit na katumpakan. Ang pag-agos ng data na ito ay hindi maaaring hindi magmaneho ng mga makabuluhang pagsulong.
Habang ang RT-2 ay binuo gamit ang isang tiyak na pamamaraan, maraming iba pang mga pamamaraan ang umiiral. Ang hinaharap ay malamang na mayroong pagsasanib ng mga pamamaraang ito, higit pa pagpapahusay ng mga robotic na kakayahan. Ang isang prospective na diskarte ay maaaring may kasamang pagsasanay sa mga robot gamit ang mga video ng mga aktibidad ng tao. Hindi na kailangan para sa mga eksklusibong pag-record – nag-aalok ang mga platform tulad ng TikTok at YouTube ng malawak na repository ng naturang content.

Magbasa pa tungkol sa AI:

Tags:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.

Mas marami pang artikulo

Damir Yalalov

Hot Stories

Ang Crypto Exchange OKX ay Naglilista ng Notcoin, Nakatakdang Ipakilala ang Spot Trading Sa NOT-USDT Pair Sa Mayo 16

by Alisa Davidson

Mayo 10, 2024

Inilunsad ng Blast ang Third Blast Gold Distribution Event, Naglaan ng 15M Points sa DApps

by Alisa Davidson

Mayo 10, 2024

Nakikipagtulungan ang Espresso Systems Sa Polygon Labs Upang Bumuo ng AggLayer Para sa Pagpapahusay ng Rollup Interoperability

by Alisa Davidson

Mayo 09, 2024

Ang ZKP-powered Infrastructure Protocol ZKBase ay Nagbubunyag ng Roadmap, Mga Plano sa Testnet Launch Sa Mayo

by Alisa Davidson

Mayo 09, 2024

Pinakabagong Balita

Ang Crypto Exchange OKX ay Naglilista ng Notcoin, Nakatakdang Ipakilala ang Spot Trading Sa NOT-USDT Pair Sa Mayo 16

by Alisa Davidson

Mayo 10, 2024

Inilunsad ng Blast ang Third Blast Gold Distribution Event, Naglaan ng 15M Points sa DApps

by Alisa Davidson

Mayo 10, 2024

Nakikipagtulungan ang Espresso Systems Sa Polygon Labs Upang Bumuo ng AggLayer Para sa Pagpapahusay ng Rollup Interoperability

by Alisa Davidson

Mayo 09, 2024

Ang ZKP-powered Infrastructure Protocol ZKBase ay Nagbubunyag ng Roadmap, Mga Plano sa Testnet Launch Sa Mayo

by Alisa Davidson

Mayo 09, 2024

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Ang mga pagsisiwalat sa pamamagitan ng 13F filing ay nagpapakita ng mga kilalang institusyonal na mamumuhunan na nakikipag-ugnayan sa mga Bitcoin ETF, na binibigyang-diin ang lumalaking pagtanggap ng ...

Malaman Higit Pa