Agosto 23, 2023

Hinahamon ng mga Mananaliksik ang Kaisipan ng 'Mga Umuusbong na Kakayahan' ng Malalaking Modelo ng Wika

Na-publish: Agosto 23, 2023 sa 5:54 am Na-update: Agosto 23, 2023 sa 5:54 am

Na-edit at na-fact check: Agosto 23, 2023 nang 5:54 am

Sa madaling sabi

Ang AGI apocalypse ay isang alalahanin dahil sa kababalaghan ng malalaking modelo ng wika nang biglaan pagpapakita ng mga kakayahan na tila wala sa mas maliliit na modelo.

Ang kababalaghang ito ay tinatawag na "mga umuusbong na kakayahan ng Malaking Modelo ng Wika."

Ang mga may-akda ng artikulong "Are Emergent Abilities of Large Language Models a Mirage?" magtaltalan na ang epekto ng mga umuusbong na kakayahan ay hindi isang mirage, ngunit sa halip ay isang predictable na paglago sa kakayahang magsagawa ng mga gawain.

Ipinakita nila na hindi bababa sa 92% ng mga problema sa Big Bench ay walang biglaang tagumpay para sa malalaking modelo, at ang kalidad ng kanilang mga modelo ay lumalaki nang maayos at predictably habang lumalaki ang laki ng mga modelo.

Sa isang kamakailang pagsusuri sa mga potensyal na kakayahan ng malalaking modelo ng wika, hinahamon ng mga mananaliksik ang paniwala ng "mga umuusbong na kakayahan" at nagbigay-liwanag sa isang mas predictable na aspeto ng kanilang functionality. Ang artikulong pinamagatang “Paglalahad ng Mga Realidad ng Mga Umuusbong na Kakayahan ng Mga Modelo ng Malaking Wika” binibigyang-pansin ang maling interpretasyon ng mga sukatan na humantong sa maling kuru-kuro na ang mga modelong ito ay kusang nakakuha ng mga advanced na kasanayan.

Hinahamon ng mga Mananaliksik ang Kaisipan ng 'Mga Umuusbong na Kakayahan' ng Malalaking Modelo ng Wika — Pinasasalamatan: Metaverse Post / Stable Diffusion

Ang konsepto ng "umuusbong na mga kakayahan” sa konteksto ng malalaking modelo ng wika, tulad ng GPT serye, ay nagdulot ng mga alalahanin tungkol sa potensyal para sa mga modelong ito na bumuo ng mga hindi inaasahang kakayahan na katulad ng kamalayan ng tao. Iginiit ng papel na ito na ang mga pagpapalagay na ito ay batay sa isang maling pag-unawa sa aktwal na pag-uugali at kakayahan ng mga modelo.

Ang karaniwang nakikitang kababalaghan, kung saan ang mga malalaking modelo ay tila nakakakuha ng mga bagong tuklas na kakayahan tulad ng abstract na pangangatwiran, paglutas ng problema, at maging ang katatawanan, ay nalikha ang "mga umuusbong na kakayahan ng Malalaking Modelo ng Wika." Ang mga may-akda ng artikulo ay naninindigan na ang mga kakayahan na ito ay hindi kusang-loob gaya ng kanilang hitsura, ngunit sa halip ay isang resulta ng mga mapanlinlang na sukatan ng pagsusuri.

Upang ilarawan ang kanilang punto, isinasaalang-alang ng mga mananaliksik ang gawain ng "hulaan ang bugtong," isang problema kung saan ang modelo ng wika ay kinakailangan upang maunawaan ang isang natural na bugtong ng wika at tumugon sa tamang sagot sa natural na wika. Ayon sa kaugalian, ang kalidad ng mga tugon ay sinusuri gamit ang isang binary metric: ang isang tugon ay itinalaga ng isang marka ng 1 kung ito ay eksaktong tumutugma sa tamang sagot, at isang marka ng 0 kung hindi man.

Ang pinakabuod ng bagay ay nakasalalay sa sensitivity ng sukatan sa pagiging kumplikado ng gawain at sa bilang ng mga parameter ng modelo. Inihayag ng mga mananaliksik na ang binary metric na ito ay humahantong sa a mapanlinlang na pang-unawa ng "mga umuusbong na kakayahan." Ang mga mas maliliit na modelo ay kadalasang nagpapakita ng hindi gaanong katumpakan (eps) sa sukatang ito, habang ang mga malalaking modelo, lalo na ang mga may mataas na bilang ng parameter, ay lumalabas na nakakamit ng mga kahanga-hangang antas ng katumpakan (acc > 0.5).

Ipinapalagay ng artikulo na ang maliwanag na pagbabagong ito sa kakayahan ay hindi nagpapahiwatig ng mga modelong kusang nakakakuha ng mga kumplikadong kasanayan. Sa halip, ang kakayahan ng mga modelo na maunawaan at makabuo ng mas maraming nuanced na mga tugon ay nagmumula sa isang mas masusing pagsusuri ng kanilang mga output. Sa pamamagitan ng pagtutok sa probabilistic matching at semantic coherence sa halip na eksaktong string matches, ipinapakita ng mga mananaliksik na ang pag-unlad ng mga modelo sa pagganap ay sumusunod sa isang mas lohikal na tilapon, anuman ang kanilang laki.

kaugnay: Ang Ebolusyon ng Chatbots mula sa T9-Era at GPT-1 sa ChatGPT

Sinisiyasat ang Ebolusyon ng Pagganap ng Modelo gamit ang Pagbabago ng Mga Parameter

Sa isang analytical na pagsisiyasat, natuklasan ng mga mananaliksik ang banayad na mekanika sa likod ng nakikitang "mga umuusbong na kakayahan" ng malalaking modelo ng wika. Ang pag-aaral ay nagtatanong sa impluwensya ng mga superdiscrete na sukatan sa pagsusuri ng pagganap ng modelo at nagpapaliwanag ng mas predictive na pag-unawa sa kanilang mga kakayahan habang lumalawak ang mga parameter ng modelo.

Ang nangingibabaw na paniwala ng "mga umuusbong na kakayahan" sa malawak na mga modelo ng wika ay nakakuha ng mga talakayan at nagtaas ng mga alalahanin tungkol sa mga potensyal na tagumpay. Ang pag-aaral na ito ay naglalayong ihiwalay ang mga mekanikong pinagbabatayan ng hindi pangkaraniwang bagay na ito at maunawaan kung ang mga modelong ito ay nagpapakita nga ng biglaan, hindi pa nagagawang mga kakayahan o kung ang mga pinaghihinalaang pagsulong na ito ay maaaring maiugnay sa ibang dahilan.

Nasa puso ng pag-aaral ang isang masusing pagsusuri ng mga sukatan na ginamit upang masukat ang pagganap ng modelo. Ipinagtanggol ng mga mananaliksik na ang paggamit ng superdiscrete metrics, partikular ang conventional binary metric na tumutukoy sa mga eksaktong tugma ng string, ay maaaring masira ang interpretasyon ng malaking kakayahan ng modelo ng wika. Masusing sinusuri ng pag-aaral kung paano umuusbong ang pamamahagi ng posibilidad ng mga sagot na binuo ng modelo bilang sukat ng mga parameter ng modelo.

Taliwas sa paniwala ng "mga umuusbong na kakayahan," ang pag-aaral ay nagpapakita ng isang mas sistematikong kalakaran. Habang lumalaki ang laki ng modelo, ang kakayahang magtalaga ng mas matataas na probabilidad sa mga naaangkop na sagot at mas mababang probabilidad sa mga mali. Ito ay sumasalamin sa isang pare-parehong pagpapahusay sa kapasidad ng modelo upang maayos na malutas ang mga problema sa isang malawak na hanay ng mga sukat. Sa esensya, ang pananaliksik ay nagmumungkahi na ang proseso ng pagkatuto ng mga modelo ay sumusunod sa isang mahusay nadefined trajectory of improvement sa halip na isang biglaang paglukso.

Ipinakilala ng mga may-akda ang isang pagbabago sa paradigm sa pamamagitan ng pagmumungkahi ng pagpapalit ng mga discrete na sukatan ng mga tuloy-tuloy. Nag-aalok ang pagbabagong ito ng mas malinaw na larawan ng ebolusyon ng pagganap. Sa pamamagitan ng kanilang pagsusuri, tiniyak ng mga mananaliksik na humigit-kumulang 92% ng Mga problema sa Big Bench nagpapakita ng maayos at mahuhulaan na paglago sa kalidad habang lumalawak ang laki ng modelo. Hinahamon ng paghahanap na ito ang paniwala na ang mga malalaking modelo ay nakakaranas ng biglaang mga tagumpay at sa halip ay nagha-highlight ng mas unti-unti at inaasahang pag-unlad.

Pinalawak ng pag-aaral ang mga insight nito upang patunayan ang mga claim nito. Ipinapakita nito na ang parehong epekto ng "lumalabas na kakayahan" ay maaaring artipisyal na gayahin gamit ang mga maginoo na autoencoders, na nagmumungkahi na ang pagpili ng mga sukatan ay makabuluhang nakakaimpluwensya sa mga nakikitang resulta. Pinalalawak ng paghahayag na ito ang saklaw ng mga implikasyon ng pag-aaral, na nagpapakita ng kaugnayan nito sa kabila ng mga modelo ng wika lamang.

Binibigyang-diin ng mga mananaliksik na ang kanilang mga resulta ay hindi definitively itinatakwil ang potensyal para sa "umuusbong na mga kakayahan" o kamalayan sa malalaking modelo ng wika. Gayunpaman, ang kanilang mga natuklasan ay hinihikayat ang mga mananaliksik na lapitan ang mga naturang claim na may isang nuanced na pananaw. Sa halip na magmadaling mag-extrapolate at bumuo ng matinding konklusyon, binibigyang-diin ng pag-aaral ang kahalagahan ng masusing pagsisiyasat at komprehensibong pagsusuri.

Magbasa pa tungkol sa AI:

Tags:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.

Mas marami pang artikulo

Damir Yalalov