Ipinakikilala ng Pisikal na Katalinuhan ang Arkitekturang MEM upang Bigyan ang mga Robot ng Memorya na Kinakailangan para sa mga Gawain sa Tunay na Mundo
Sa madaling sabi
Nakabuo ang mga mananaliksik ng Multi-Scale Embodied Memory, isang sistemang nagbibigay sa mga robot ng panandalian at pangmatagalang memorya upang masubaybayan nila ang kanilang progreso at makumpleto ang mga kumplikadong gawain sa halip na magsagawa lamang ng mga nakahiwalay na aksyon.
Sa loob ng maraming taon, ang pangarap ng isang tunay na matulunging robot sa bahay ay halos hindi na maabot. Kaya na ng mga robot na sundin ang mga utos tulad ng "hugasan ang kawali," "tiklupin ang mga damit," o "gumawa ng sandwich." Sa mga kapaligirang laboratoryo, ang mga sistemang ito ay nagpapakita ng kahanga-hangang kahusayan at katumpakan. Ngunit sa kabila ng mabilis na pagsulong sa mga modelo ng pundasyon ng robot, may isang pangunahing bagay na nawawala: ang memorya.
Ang isang robot na kayang magsagawa ng iisang gawain ay hindi katulad ng isang robot na kayang tapusin ang isang trabaho. Ang paglilinis ng isang buong kusina, pagluluto ng pagkain, o paghahanda ng mga sangkap para sa isang recipe ay nangangailangan ng higit pa sa magkakahiwalay na kasanayan. Nangangailangan ito ng pagpapatuloy — ang kakayahang matandaan kung ano ang nagawa na, kung ano ang kailangan pang mangyari, at kung saan matatagpuan ang lahat. Kung wala ang naratibong takbo ng kwento, kahit ang pinaka-may kakayahang robot ay nakakagulat na nagiging walang kakayahan.
Ito ang hamong sinusubukan ngayon ng mga mananaliksik sa Physical Intelligence na lutasin gamit ang isang bagong arkitektura na tinatawag na Multi-Scale Embodied Memory (MEM) — isang sistemang idinisenyo upang bigyan ang mga robot ng parehong panandalian at pangmatagalang memorya upang maisagawa nila ang mga gawain na nagaganap sa loob ng ilang minuto sa halip na ilang segundo.
Ang mga resulta ay nagpapahiwatig ng isang bagay na mahalaga: ang kinabukasan ng robotics ay maaaring mas umaasa sa mas mahusay na mekanikal na mga kamay at higit pa sa mas mahusay na cognitive architecture.
Ang mga modernong modelo ng robot ay mayroon nang kahanga-hangang koleksyon ng mga kasanayan sa motor. Kaya nilang hawakan ang mga marupok na bagay, manipulahin ang mga kagamitan, at mag-navigate sa mga makalat na kapaligiran. Ngunit hilingin sa isang robot na linisin ang isang kumpletong kusina — pagpupunas ng mga counter, pag-iimpake ng mga groseri, paghuhugas ng mga pinggan, at pag-aayos ng mga kagamitan — at mabilis na magiging halata ang mga limitasyon.
Ang problema ay hindi ang mga kasanayan mismo. Ang problema ay kung paano pinag-uugnay ang mga kasanayang iyon. Ang mga kumplikadong gawain ay nangangailangan ng patuloy na kamalayan. Dapat tandaan ng isang robot kung aling mga kabinet ang nabuksan na nito, kung saan nito inilagay ang takip ng kaldero, o kung nakapaghugas na ito ng pinggan. Dapat din nitong subaybayan ang mga bagay na nawawala sa paningin at mapanatili ang isang mental na mapa ng kapaligiran habang nagsasagawa ng mga bagong aksyon.
Nagagawa ito nang walang kahirap-hirap ng kognisyon ng tao. Hanggang kamakailan lamang, hindi pa ito nagagawa ng mga makina. Ang pag-iimbak ng bawat obserbasyon na nakikita ng isang robot sa loob ng ilang minuto o oras ay imposibleng gawin sa pamamagitan ng komputasyon. Ngunit ang pagtatapon ng impormasyong iyon ay humahantong sa magulong pag-uugali — mga paulit-ulit na pagkakamali, mga nakalimutang hakbang, o mga aksyon na sumasalungat sa mga naunang desisyon. Sa pananaliksik sa robotics, ang hamong ito ay minsang inilalarawan bilang "causal confusion," kung saan ang mga sistema ay mali ang pagkakaintindi sa mga nakaraang pangyayari at pinapatibay ang mga maling pag-uugali.
Ang resulta: mga robot na mukhang kahanga-hanga sa maiikling demo ngunit nahihirapang makumpleto ang mga gawain sa totoong mundo.
Isang Sistema ng Memorya para sa Pisikal na Katalinuhan
Tinutugunan ng arkitektura ng MEM ang problemang ito sa pamamagitan ng pagpapakilala ng isang multi-layered memory structure. Sa halip na iimbak ang lahat nang pantay-pantay, pinaghihiwalay ng sistema ang memorya sa dalawang komplementaryong anyo:
Kinukuha ng panandaliang biswal na memorya ang mga kamakailang obserbasyon gamit ang isang mahusay na arkitektura ng pag-encode ng video. Nagbibigay-daan ito sa robot na maunawaan ang galaw, subaybayan ang mga bagay sa iba't ibang frame, at matandaan ang mga pangyayaring nangyari ilang segundo na ang nakalipas — mahalaga para sa mga tumpak na aksyon tulad ng pagbaligtad ng grilled cheese sandwich o pagkuskos ng pinggan.
Samantala, ang pangmatagalang konseptwal na memorya ay nag-iimbak ng pag-unlad ng gawain sa natural na wika. Sa halip na alalahanin ang hilaw na biswal na datos sadefiKalaunan, nagsusulat ang robot ng maiikling tekstong "tala" na naglalarawan sa nangyari — mga pahayag tulad ng "Inilagay ko ang palayok sa lababo" o "Kinuha ko ang gatas mula sa refrigerator."
Ang mga buod na ito ay nagiging bahagi ng proseso ng pangangatwiran ng robot. Sa bisa nito, ang makina ay bumubuo ng sarili nitong salaysay ng gawain. Ang makina ng pangangatwiran ng sistema ay sabay na nagpapasya ng dalawang bagay: kung anong aksyon ang susunod na gagawin at kung anong impormasyon ang dapat tandaan. Ang kombinasyong ito ay nagbibigay-daan sa modelo na subaybayan ang mga gawaing tumatagal ng hanggang labinlimang minuto — mas matagal kaysa sa karamihan ng mga nakaraang demonstrasyon ng robot.
Isa sa mga pinakakawili-wiling kakayahan na pinapagana ng MEM ay ang in-context adaptation. Nagkakamali ang mga robot. Hindi maiiwasan iyon. Ngunit karamihan sa mga robotic system ay paulit-ulit na inuulit ang mga pagkakamaling iyon dahil wala silang alaala ng pagkabigo.
Ang pagkakaiba ay nagiging halata sa mga simpleng eksperimento. Sa isang pagsubok, tinangka ng isang robot na kunin ang isang patag na chopstick. Dahil walang memorya, paulit-ulit na sinusubukan ng makina ang parehong hindi matagumpay na paghawak. Kapag naka-enable ang memorya, naaalala ng robot ang nabigong pagtatangka at sumusubok ng ibang paraan — kalaunan ay nagtagumpay.
Isa pang halimbawa ay ang pagbubukas ng refrigerator. Mula lamang sa biswal na datos, hindi agad matutukoy ng robot kung saang direksyon bumubukas ang pinto. Ang isang sistemang walang memorya ay paulit-ulit na inuulit ang parehong aksyon. Ang isang robot na may memorya ay sumusubok sa isang direksyon, inaalala ang pagkabigo, at pagkatapos ay sinusubukan ang kabilang direksyon.
Ang maliliit na pagsasaayos na ito ay kumakatawan sa isang bagay na malalim: ang kakayahang matuto sa loob mismo ng gawain. Sa halip na umasa nang buo sa datos ng pagsasanay, ang robot ay umaangkop nang mabilis.
Sinuri ng mga mananaliksik ang sistemang pinapagana ng memorya sa mga gawaing lalong nagiging masalimuot. Una ay dumating ang isang medyo simpleng hamon: ang paggawa ng grilled cheese sandwich. Nangangailangan ito ng panandaliang memorya upang pamahalaan ang tiyempo habang nagsasagawa ng mga maselang pisikal na hakbang tulad ng pagbaligtad ng tinapay at paglalagay ng sandwich sa ibabaw nito.
Sumunod ay ang isang gawaing logistikal: ang pagkuha ng mga sangkap para sa isang recipe. Kailangang tandaan ng robot kung aling mga bagay ang nakolekta na nito, kung saan matatagpuan ang mga ito, at kung ang mga drawer at cabinet ay nakasara na. Sa wakas ay dumating ang pinakamahirap na senaryo: ang paglilinis ng isang buong kusina.
Nangangahulugan ito ng pagliligpit ng mga gamit, paghuhugas ng mga pinggan, pagpupunas ng mga countertop, at pagsubaybay kung aling mga bahagi ng silid ang nalinis na.
Ang modelong pinalaki ang memorya ay higit na nakapagtala ng mas mahusay na performance kaysa sa mga bersyong walang nakabalangkas na memorya, na nagpapakita ng mas mataas na kahusayan at mga rate ng pagkumpleto ng gawain.
Ang pagkakaiba ay naglalarawan ng isang mahalagang pagbabago sa robotics. Sa halip na i-optimize ang mga nakahiwalay na aksyon, ang mga mananaliksik ngayon ay bumubuo ng mga sistemang may kakayahang magkaroon ng napapanatiling daloy ng trabaho.
Bakit ang Memorya ang Susunod na Hangganan sa Robotics
Ang mas malawak na implikasyon ng MEM ay ang robotics ay pumapasok sa isang bagong yugto. Sa loob ng mga dekada, ang larangan ay nakatuon sa persepsyon at kontrol: pagtulong sa mga makina na makita ang mundo at manipulahin ang mga bagay. Kamakailan lamang, ang malalaking multimodal na modelo ay lubos na nagpabuti sa kakayahan ng mga robot na bigyang-kahulugan ang mga tagubilin at magsagawa ng mga kumplikadong pag-uugali ng motor.
Ngunit habang humihinog ang mga kakayahang iyon, nawala na ang hadlang. Ang susunod na hamon ay ang cognitive continuity — na nagbibigay-daan sa mga robot na gumana sa mahabang panahon nang hindi nawawala ang kanilang mga layunin. Ang mga memory system tulad ng MEM ang nagbibigay ng pundasyon para sa continuity na iyon. Sa halip na tumugon sandali-sa-sandali, maaaring mapanatili ng mga robot ang isang panloob na salaysay tungkol sa kanilang mga aksyon, desisyon, at kapaligiran. Ang salaysay na ito ang nagpapahintulot sa paglitaw ng kumplikadong pag-uugali.
Kung magpapatuloy ang pagbabago sa pamamaraang ito, ang mga implikasyon ay lalampas pa sa paglilinis ng mga kusina. Maaaring kailanganin ng mga robot sa hinaharap na sundin ang mga tagubilin na ilalabas sa loob ng ilang oras o kahit na mga araw. Isipin na sabihin sa isang katulong sa bahay:
"Umuuwi ako ng alas-sais ng gabi — pakihanda ang hapunan at linisin ang bahay tuwing Miyerkules."
Ang pagpapatupad ng ganitong kahilingan ay mangangailangan ng pag-parse ng mahahabang tagubilin, pagpaplano ng mga subtask, pag-alala sa progreso, at pag-aangkop kapag may nangyaring mali.
Imposibleng mapanatili ang isang hilaw na kasaysayan ng video ng bawat aksyon nang ganoon katagal. Sa halip, malamang na aasa ang mga robot sa mga hierarchical memory system, kung saan ang mga karanasan ay pinagsiksik sa lalong mga abstraktong representasyon.
Ang MEM ay isang maagang hakbang patungo sa arkitekturang iyon. Ipinahihiwatig nito na ang susi sa mas may kakayahang mga robot ay maaaring hindi ang mas malalakas na motor o mas matalas na sensor, kundi ang mas mahusay na memorya — at ang kakayahang mangatwiran tungkol dito. Kung sa wakas ay maaalala ng mga robot ang kanilang ginagawa, maaari rin nilang matapos ang trabaho.
Pagtanggi sa pananagutan
Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.
Tungkol sa Ang May-akda
Alisa, isang dedikadong mamamahayag sa MPost, ay dalubhasa sa crypto, AI, mga pamumuhunan, at sa malawak na larangan ng Web3. Sa isang matalas na mata para sa mga umuusbong na uso at teknolohiya, naghahatid siya ng komprehensibong saklaw upang ipaalam at hikayatin ang mga mambabasa sa patuloy na umuusbong na tanawin ng digital finance.
Mas marami pang artikulo
Alisa, isang dedikadong mamamahayag sa MPost, ay dalubhasa sa crypto, AI, mga pamumuhunan, at sa malawak na larangan ng Web3. Sa isang matalas na mata para sa mga umuusbong na uso at teknolohiya, naghahatid siya ng komprehensibong saklaw upang ipaalam at hikayatin ang mga mambabasa sa patuloy na umuusbong na tanawin ng digital finance.



