Ulat sa Balita Teknolohiya
Abril 05, 2023

8 Bagay na Dapat Mong Malaman Tungkol sa Malalaking Modelo ng Wika

Sa madaling sabi

malalaking modelo ng wika (Mga LLM) ay ginagamit upang tuklasin ang mga nuances ng natural na wika, pagbutihin ang kakayahan ng mga makina na maunawaan at makabuo ng teksto, at i-automate ang mga gawain tulad ng pagkilala sa boses at pagsasalin ng makina.

Walang madaling solusyon sa pamamahala ng mga LLM, ngunit ang mga ito ay kasing kakayahan ng mga tao.

Sa pagsulong sa pagbuo ng natural na pagpoproseso ng wika at paggamit nito sa negosyo, lumalaki ang interes sa malalaking modelo ng wika. Ang mga modelong ito ay ginagamit upang tuklasin ang mga nuances ng natural na wika, pagbutihin ang kakayahan ng mga makina na maunawaan at makabuo ng teksto at mag-automate ng mga gawain tulad ng pagkilala sa boses at pagsasalin ng makina. Narito ang walong mahahalagang bagay na dapat mong malaman tungkol sa malalaking modelo ng wika (LLM).

10 Bagay na Dapat Mong Malaman Tungkol sa Malalaking Modelo ng Wika
@Midjourney / Taka#4076

Ang mga LLM ay mas "may kakayahan" habang patuloy na tumataas ang mga gastos

Ang mga LLM ay mahuhulaan na nagiging mas "may kakayahan" sa pagtaas ng mga gastos, kahit na walang mga cool na inobasyon. Ang pangunahing bagay dito ay predictability, na ipinakita sa artikulo tungkol sa GPT-4: lima hanggang pitong maliliit na modelo ang itinuro na may badyet na 0.1% ng pangwakas, at pagkatapos ay ginawa ang isang hula para sa isang malaking modelo batay dito. Para sa pangkalahatang pagtatasa ng kaguluhan at mga sukatan sa isang subsample ng isang partikular na gawain, napakatumpak ng naturang hula. Mahalaga ang predictability na ito para sa mga negosyo at organisasyon na umaasa sa mga LLM para sa kanilang mga operasyon, dahil maaari silang magbadyet nang naaayon at magplano para sa mga gastos sa hinaharap. Gayunpaman, mahalagang tandaan na habang ang pagtaas ng mga gastos ay maaaring humantong sa mga pinahusay na kakayahan, ang rate ng pagpapabuti ay maaaring sa kalaunan ay talampas, kaya kinakailangan na mamuhunan sa mga bagong inobasyon upang magpatuloy sa pagsulong.

Isang mabilis na pagtingin sa kung paano GPT umaangkop ang mga modelo habang tumataas ang mga gastos sa pagsasanay

Gayunpaman, ang mga partikular na mahahalagang kasanayan ay malamang na lumabas nang hindi mahuhulaan bilang isang by-product ng pagtaas gastos sa pagsasanay (mas mahabang pagsasanay, mas maraming data, mas malaking modelo) — halos imposibleng mahulaan kung kailan magsisimulang magsagawa ang mga modelo ng ilang partikular na gawain. Ginalugad namin ang paksa nang mas malalim sa aming artikulo tungkol sa kasaysayan ng pag-unlad ng GPT mga modelo. Ipinapakita ng larawan ang pamamahagi ng pagtaas sa kalidad ng mga modelo sa iba't ibang gawain. Ang mga malalaking modelo lamang ang maaaring matutong gumawa ng iba't ibang gawain. Itinatampok ng graph na ito ang makabuluhang epekto ng pagpapalaki ng laki ng GPT modelo sa kanilang pagganap sa iba't ibang gawain. Gayunpaman, mahalagang tandaan na ito ay nagmumula sa halaga ng tumaas na mapagkukunan ng computational at epekto sa kapaligiran.

Isang mabilis na pagtingin sa kung paano GPT umaangkop ang mga modelo habang tumataas ang mga gastos sa pagsasanay

Natututo ang mga LLM na maglaro ng mga board game sa pamamagitan ng paggamit ng mga representasyon ng labas ng mundo

Ang mga LLM ay madalas na natututo at gumagamit ng mga representasyon ng labas ng mundo. Mayroong maraming mga halimbawa dito, at narito ang isa sa mga ito: Mga modelong sinanay upang maglaro ng mga board game batay sa mga paglalarawan ng mga indibidwal na galaw, nang hindi nakikita ang isang larawan ng larangan ng paglalaro, alamin ang mga panloob na representasyon ng estado ng board sa bawat galaw. Magagamit na ang mga panloob na representasyong ito hulaan ang hinaharap galaw at kinalabasan, na nagpapahintulot sa modelo na laruin ang laro sa mataas na antas. Ang kakayahang matuto at gumamit ng mga representasyon ay isang susi aspeto ng machine learning at artificial intelligence.

Walang madaling solusyon sa pamamahala ng LLM

Walang maaasahang paraan para makontrol ang gawi ng LLM. Bagama't may ilang pag-unlad sa pag-unawa at pagpapagaan ng iba't ibang problema (kabilang ang ChatGPT at GPT-4 sa tulong ng feedback), walang pinagkasunduan kung malulutas natin ang mga ito. Lumalaki ang pag-aalala na ito ay magiging isang malaking, potensyal na sakuna na problema sa hinaharap kapag kahit na mas malalaking mga sistema ay nilikha. Samakatuwid, ang mga mananaliksik ay nag-e-explore ng mga bagong pamamaraan upang matiyak na ang mga AI system ay naaayon sa mga halaga at layunin ng tao, tulad ng value alignment at reward engineering. Gayunpaman, nananatili itong isang mapaghamong gawain upang magarantiya ang kaligtasan at pagiging maaasahan ng mga LLM sa mga kumplikadong senaryo sa totoong mundo.

Magbasa nang higit pa: OpenAI Nagtitipon ng Koponan ng 50+ Eksperto para Pahusayin GPT-4Kaligtasan ni

Nagkakaproblema ang mga eksperto na ipaliwanag kung paano gumagana ang LLM

Hindi pa mabibigyang-kahulugan ng mga eksperto ang panloob na gawain ng LLM. Walang pamamaraan ang magpapahintulot sa amin na sabihin sa anumang kasiya-siyang paraan kung anong mga uri ng kaalaman, pangangatwiran, o layunin ang ginagamit ng modelo kapag bumubuo ito ng anumang resulta. Ang kakulangan ng interpretability na ito ay nagpapataas ng mga alalahanin tungkol sa pagiging maaasahan at pagiging patas ng mga desisyon ng LLM, lalo na sa mga aplikasyon na may mataas na stake gaya ng hustisyang pangkrimen o credit scoring. Itinatampok din nito ang pangangailangan para sa karagdagang pananaliksik sa pagbuo ng mas transparent at may pananagutan na mga modelo ng AI.

Ang mga LLM ay kasing kakayahan ng mga tao

Bagama't ang mga LLM ay pangunahing sinanay sa gayahin ang ugali ng tao sa pagsulat ng teksto, may potensyal silang malampasan tayo sa maraming gawain. Ito ay makikita na kapag naglalaro ng chess o Go. Ito ay dahil sa kanilang kakayahang magsuri ng napakaraming data at gumawa ng mga pagpapasya batay sa pagsusuring iyon sa bilis na hindi matutumbasan ng mga tao. Gayunpaman, kulang pa rin ang mga LLM sa pagkamalikhain at intuwisyon na taglay ng mga tao, na ginagawang hindi gaanong angkop para sa maraming gawain.

Magbasa nang higit pa: OpenAI Nagtitipon ng Koponan ng 50+ Eksperto para Pahusayin GPT-4Kaligtasan ni

Ang mga LLM ay dapat na higit pa sa "jack-of-all-trades"

Hindi dapat ipahayag ng mga LLM ang mga halaga ng kanilang mga tagalikha o ang mga halagang naka-encode sa isang seleksyon mula sa Internet. Hindi nila dapat ulitin ang mga stereotype o mga teorya ng pagsasabwatan o maghangad na saktan ang sinuman. Sa halip, ang mga LLM ay dapat na idinisenyo upang magbigay ng walang kinikilingan at makatotohanang impormasyon sa kanilang mga gumagamit habang iginagalang ang mga pagkakaiba sa kultura at lipunan. Bukod pa rito, dapat silang sumailalim sa regular na pagsusuri at pagsubaybay upang matiyak na patuloy silang nakakatugon sa mga pamantayang ito.

Ang mga modelo ay 'mas matalino' kaysa sa iniisip ng mga tao batay sa mga unang impression

Ang mga pagtatantya ng kakayahan ng isang modelo batay sa mga unang impression ay kadalasang nakakapanlinlang. Kadalasan, kailangan mong makabuo ng tamang prompt, magmungkahi ng isang modelo, at maaaring magpakita ng mga halimbawa, at magsisimula itong mas mahusay na makayanan. Iyon ay, ito ay "mas matalino" kaysa sa tila sa unang tingin. Samakatuwid, napakahalaga na bigyan ang modelo ng isang patas na pagkakataon at ibigay ito sa mga kinakailangang mapagkukunan upang gumanap sa pinakamahusay nito. Gamit ang tamang diskarte, kahit na tila hindi sapat na mga modelo ay maaaring mabigla sa amin sa kanilang mga kakayahan.

Kung tumutok tayo sa isang sample ng 202 na gawain mula sa BIG-Bench dataset (espesyal itong ginawang mahirap na subukan mga modelo ng wika mula at hanggang), pagkatapos bilang panuntunan (sa karaniwan), ang mga modelo ay nagpapakita ng pagtaas sa kalidad na may pagtaas ng sukat, ngunit sa bawat isa, ang mga sukatan sa mga gawain ay maaaring:

  • unti-unting pagbutihin,
  • pagbutihin nang husto,
  • mananatiling hindi nagbabago,
  • bumaba,
  • hindi nagpapakita ng ugnayan.

Ang lahat ng ito ay humahantong sa imposibilidad ng kumpiyansa na i-extrapolate ang pagganap ng anumang hinaharap na sistema. Ang berdeng bahagi ay lalong kawili-wili — ito mismo ay kung saan ang mga tagapagpahiwatig ng kalidad ay tumataas nang husto nang walang dahilan.

Magbasa pa tungkol sa AI:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Hot Stories
Sumali sa Aming Newsletter.
Pinakabagong Balita

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Ang mga pagsisiwalat sa pamamagitan ng 13F filing ay nagpapakita ng mga kilalang institusyonal na mamumuhunan na nakikipag-ugnayan sa mga Bitcoin ETF, na binibigyang-diin ang lumalaking pagtanggap ng ...

Malaman Higit Pa

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
Ipinakilala ng Morph ang Holesky Testnet Nito Sa Optimistic na zkEVM Integration, Bridge Mechanism at Decentralized Sequencer Network Features
Ulat sa Balita Teknolohiya
Ipinakilala ng Morph ang Holesky Testnet Nito Sa Optimistic na zkEVM Integration, Bridge Mechanism at Decentralized Sequencer Network Features
Mayo 6, 2024
Ang Robinhood Crypto ay Nakatanggap ng Wells Notice Mula sa Securities And Exchange Commission Tungkol sa Di-umano'y Mga Paglabag sa Securities
markets Ulat sa Balita Teknolohiya
Ang Robinhood Crypto ay Nakatanggap ng Wells Notice Mula sa Securities And Exchange Commission Tungkol sa Di-umano'y Mga Paglabag sa Securities
Mayo 6, 2024
Ini-deploy ang QuickSwap Sa X Layer Mainnet At Pinapalawak ang Polygon CDK Network Gamit ang Citadel Launch
Ulat sa Balita Teknolohiya
Ini-deploy ang QuickSwap Sa X Layer Mainnet At Pinapalawak ang Polygon CDK Network Gamit ang Citadel Launch 
Mayo 6, 2024
Pinasimulan ng Layer 2 Network Linea ang ZERO Token Claiming For ZeroLend Airdrop Mga Gumagamit At Namumuhunan
markets Ulat sa Balita Teknolohiya
Pinasimulan ng Layer 2 Network Linea ang ZERO Token Claiming For ZeroLend Airdrop Mga Gumagamit At Namumuhunan
Mayo 6, 2024
CRYPTOMERIA LABS PTE. LTD.