Marso 09, 2023

Ang Ebolusyon ng Chatbots mula sa T9-Era at GPT-1 sa ChatGPT

Na-publish: Marso 09, 2023 nang 4:00 pm Na-update: Marso 09, 2023 nang 4:50 pm

Kamakailan, halos araw-araw kaming binomba ng mga post ng balita tungkol sa mga pinakabagong record na nasira ng malalaking neural network at kung bakit halos walang ligtas na trabaho. Gayunpaman, napakakaunting mga tao ang nakakaalam kung paano gusto ang mga neural network ChatGPT aktwal na gumagana.

Kaya, relax. Huwag magtaghoy tungkol sa iyong mga prospect sa trabaho. Sa post na ito, ipapaliwanag namin ang lahat ng dapat malaman tungkol sa mga neural network sa paraang maiintindihan ng lahat.

Ang Ebolusyon ng Chatbots mula sa T9-Era at GPT-1 sa ChatGPT at Bart

Isang caveat bago tayo magsimula: Ang bahaging ito ay isang pakikipagtulungan. Ang buong teknikal na bahagi ay isinulat ng isang espesyalista sa AI na kilalang-kilala sa karamihan ng AI.

Dahil wala pang nakasulat ng malalim na piraso tungkol sa kung paano ChatGPT mga gawa na magpapaliwanag, sa mga tuntunin ng karaniwang tao, ang mga pasikot-sikot ng mga neural network, nagpasya kaming gawin ito para sa iyo. Sinubukan naming panatilihing simple ang post na ito hangga't maaari upang ang mga mambabasa ay makalabas sa pagbabasa ng post na ito nang may pangkalahatang pag-unawa sa mga prinsipyo ng mga neural network ng wika. Tuklasin natin kung paano mga modelo ng wika nagtatrabaho doon, kung paano umunlad ang mga neural network upang magkaroon ng kanilang mga kasalukuyang kakayahan, at bakit ChatGPTAng sumasabog na katanyagan ay nagulat maging ang mga tagalikha nito.

Magsimula tayo sa mga pangunahing kaalaman. Maintindihan ChatGPT mula sa isang teknikal na pananaw, kailangan muna nating maunawaan kung ano ito ay hindi. Hindi ito si Jarvis ng Marvel Comics; ito ay hindi isang makatwirang nilalang; hindi ito genie. Maghanda na mabigla: ChatGPT ay talagang T9 ng iyong cellphone sa mga steroid! Oo, ito ay: Tinutukoy ng mga siyentipiko ang parehong mga teknolohiyang ito bilang "mga modelo ng wika." Ang ginagawa ng lahat ng neural network ay hulaan kung ano ang susunod na salita.

Pinabilis lang ng orihinal na teknolohiyang T9 ang push-button na pag-dial sa telepono sa pamamagitan ng paghula sa kasalukuyang input kaysa sa susunod na salita. Gayunpaman, umunlad ang teknolohiya, at sa panahon ng mga smartphone noong unang bahagi ng 2010s, nagawa nitong isaalang-alang ang konteksto at ang salita bago, magdagdag ng bantas, at nag-aalok ng seleksyon ng mga salita na maaaring sumunod. Iyan ang eksaktong pagkakatulad na ginagawa namin sa gayong "advanced" na bersyon ng T9 o autocorrect.

Bilang resulta, parehong T9 sa isang smartphone keyboard at ChatGPT ay sinanay upang malutas ang isang nakakatawang simpleng gawain: hinuhulaan ang susunod na salita. Ito ay kilala bilang "pagmomodelo ng wika," at ito ay nangyayari kapag ang isang desisyon ay ginawa tungkol sa kung ano ang dapat na susunod na isulat batay sa umiiral na teksto. Ang mga modelo ng wika ay dapat gumana sa mga probabilidad ng paglitaw ng mga partikular na salita upang makagawa ng mga naturang hula. Pagkatapos ng lahat, maiinis ka kung ang autofill ng iyong telepono ay naghagis sa iyo ng ganap na random na mga salita na may parehong posibilidad.

Para sa kalinawan, isipin natin na nakatanggap ka ng mensahe mula sa isang kaibigan. Sinasabi nito: "Ano ang iyong mga plano para sa gabi?" Bilang tugon, magsisimula kang mag-type ng: "Pupunta ako sa...", at dito papasok ang T9. Maaaring magkaroon ito ng ganap na walang katuturang mga bagay tulad ng "Pupunta ako sa buwan," hindi kailangan ng kumplikadong modelo ng wika. Ang magagandang modelo ng auto-complete ng smartphone ay nagmumungkahi ng mas may kaugnayang mga salita.

Kaya, paano malalaman ng T9 kung anong mga salita ang mas malamang na sumunod sa na-type na teksto at kung ano ang malinaw na walang kahulugan? Upang masagot ang tanong na ito, kailangan muna nating suriin ang mga pangunahing prinsipyo ng pagpapatakbo ng pinakasimpleng neural network.

Talaan ng nilalaman

Paano hinuhulaan ng mga modelo ng AI ang susunod na salita
Bakit patuloy nating sinusubukang hanapin ang mga 'tamang' salita para sa isang naibigay na teksto?
GPT-1: Pagsabog ng industriya
GPT-2: Ang edad ng malalaking modelo ng wika
GPT-3: Matalino bilang Impiyerno
GPT-3.5 (InstructGPT): Sinanay ang modelo upang maging ligtas at hindi nakakalason
ChatGPT: Isang Napakalaking Pagdagsa ng Hype

Higit pa: ChatGPT Available na ang API, Binubuksan ang Floodgate para sa Mga Developer

Paano hinuhulaan ng mga modelo ng AI ang susunod na salita

Magsimula tayo sa isang mas simpleng tanong: Paano mo hinuhulaan ang pagtutulungan ng ilang bagay sa iba? Ipagpalagay na gusto nating turuan ang isang computer na hulaan ang timbang ng isang tao batay sa kanilang taas — paano natin ito gagawin? Dapat muna nating tukuyin ang mga lugar ng interes at pagkatapos ay mangolekta ng data na kung saan hahanapin ang mga dependency ng interes at pagkatapos ay subukang "magsanay" ng ilang modelo ng matematika upang maghanap ng mga pattern sa loob ng data na ito.

Sa madaling salita, T9 o ChatGPT ay mga matalinong piniling equation lamang na nagtatangkang gawin hulaan isang salita (Y) batay sa hanay ng mga nakaraang salita (X) na ipinasok sa input ng modelo. Kapag nagsasanay a modelo ng wika sa isang set ng data, ang pangunahing gawain ay ang pumili ng mga coefficient para sa mga x na ito na tunay na sumasalamin sa ilang uri ng pagtitiwala (tulad ng sa aming halimbawa sa taas at timbang). At sa pamamagitan ng malalaking modelo, magkakaroon tayo ng mas mahusay na pag-unawa sa mga may malaking bilang ng mga parameter. Sa larangan ng artificial intelligence, tinutukoy ang mga ito bilang malalaking modelo ng wika, o LLM para sa maikli. Tulad ng makikita natin sa ibang pagkakataon, ang isang malaking modelo na may maraming mga parameter ay mahalaga para sa pagbuo ng magandang teksto.

Oo nga pala, kung nagtataka ka kung bakit patuloy nating pinag-uusapan ang tungkol sa "paghula ng susunod na salita" habang ChatGPT mabilis na tumugon sa buong talata ng teksto, ang sagot ay simple. Oo naman, ang mga modelo ng wika ay maaaring makabuo ng mahahabang teksto nang walang kahirapan, ngunit ang buong proseso ay salita sa salita. Pagkatapos mabuo ang bawat bagong salita, pinapatakbo lang muli ng modelo ang lahat ng teksto gamit ang bagong salita upang makabuo ng susunod na salita. Ang proseso ay paulit-ulit hanggang sa makuha mo ang buong tugon.

Higit pa: ChatGPT Maaaring Magdulot ng Hindi Maibabalik na Pagkabulok ng Tao

Bakit patuloy nating sinusubukang hanapin ang mga 'tamang' salita para sa isang naibigay na teksto?

Sinusubukan ng mga modelo ng wika na hulaan ang mga probabilidad ng iba't ibang salita na maaaring mangyari sa isang naibigay na teksto. Bakit kailangan ito, at bakit hindi mo na lang ituloy ang paghahanap ng “pinaka tama” na salita? Subukan natin ang isang simpleng laro upang ilarawan kung paano gumagana ang prosesong ito.

Ang mga patakaran ay ang mga sumusunod: Iminumungkahi kong ipagpatuloy mo ang pangungusap: “Ang ika-44 na Pangulo ng Estados Unidos (at ang unang Aprikanong Amerikano sa posisyong ito) ay si Barak…”. Anong salita ang dapat sumunod? Ano ang posibilidad na mangyari ito?

Bakit patuloy nating sinusubukang hanapin ang mga 'tamang' salita para sa isang naibigay na teksto?

Kung hinulaan mo nang may 100% katiyakan na ang susunod na salita ay magiging "Obama," nagkamali ka! At ang punto dito ay hindi na mayroong isa pang gawa-gawang Barak; ito ay mas walang kuwenta. Karaniwang ginagamit ng mga opisyal na dokumento ang buong pangalan ng pangulo. Nangangahulugan ito na ang susunod sa unang pangalan ni Obama ay ang kanyang gitnang pangalan, Hussein. Kaya, sa aming pangungusap, dapat hulaan ng isang wastong sinanay na modelo ng wika na ang "Obama" ay ang susunod na salita lamang na may kondisyon na posibilidad na 90% at ilaan ang natitirang 10% kung ang teksto ay ipagpapatuloy ni "Hussein" (pagkatapos nito ay sundin na may posibilidad na malapit sa 100%).

At ngayon ay dumating tayo sa isang nakakaintriga na aspeto ng mga modelo ng wika: Hindi sila immune sa mga creative streak! Sa katunayan, kapag bumubuo ng bawat susunod na salita, pinipili ito ng mga naturang modelo sa isang "random" na paraan, na parang naghahagis ng isang die. Ang posibilidad ng iba't ibang mga salitang "nahuhulog" ay tumutugma nang higit pa o mas kaunti sa mga probabilidad na iminungkahi ng mga equation na ipinasok sa loob ng modelo. Ang mga ito ay hinango mula sa malaking hanay ng iba't ibang mga teksto na pinakain sa modelo.

Lumalabas na ang isang modelo ay maaaring tumugon nang iba sa parehong mga kahilingan, tulad ng isang buhay na tao. Sa pangkalahatan, sinubukan ng mga mananaliksik na pilitin ang mga neuron na palaging piliin ang "pinaka-malamang" na susunod na salita, ngunit habang ito ay tila makatwiran sa ibabaw, ang mga naturang modelo ay gumaganap ng mas malala sa katotohanan. Mukhang kapaki-pakinabang ang isang patas na dosis ng randomness dahil pinapataas nito ang pagkakaiba-iba at ang kalidad ng mga sagot.

Sa pangkalahatan, sinubukan ng mga mananaliksik na pilitin ang mga neuron na palaging piliin ang "pinaka-malamang" na susunod na salita, ngunit habang ito ay tila makatuwiran sa ibabaw, ang mga naturang modelo ay gumaganap ng mas malala sa katotohanan.

Higit pa: ChatGPT Natututong Kontrolin ang mga Drone at Robot habang Pinag-iisipan ang Next-Generation AI

Ang ating wika ay may kakaibang istraktura na may natatanging hanay ng mga tuntunin at mga eksepsiyon. May tula at dahilan kung anong mga salita ang lumalabas sa isang pangungusap, hindi basta-basta nangyayari ang mga ito. Ang bawat tao'y walang kamalayan na natututo sa mga tuntunin ng wikang ginagamit nila sa kanilang mga unang taon ng pagbuo.

Dapat isaalang-alang ng isang disenteng modelo ang malawak na hanay ng paglalarawan ng wika. Yung model kakayahang makagawa ng ninanais na resulta depende sa kung gaano katumpak ang pagkalkula ng mga probabilidad ng mga salita batay sa mga subtleties ng konteksto (ang nakaraang seksyon ng teksto na nagpapaliwanag ng pangyayari).

Ang kakayahan ng modelo na makagawa ng mga nais na resulta ay nakasalalay sa kung gaano katumpak ang pagkalkula ng mga probabilidad ng mga salita batay sa mga subtleties ng konteksto (ang nakaraang seksyon ng teksto na nagpapaliwanag ng pangyayari).

Buod: Ang mga simpleng modelo ng wika, na isang hanay ng mga equation na sinanay sa malaking dami ng data upang mahulaan ang susunod na salita batay sa input source text, ay ipinatupad sa functionality na "T9/Autofill" ng mga smartphone mula noong unang bahagi ng 2010s.

Higit pa: Ipinagbabawal ng China ang Mga Kumpanya sa Paggamit ChatGPT Pagkatapos ng "True News" Scandal

GPT-1: Pagsabog ng industriya

Lumayo tayo sa mga modelong T9. Habang binabasa mo marahil ang pirasong ito Alamin ang tungkol sa ChatGPT, una, kailangan nating talakayin ang mga simula ng GPT modelong pamilya.

GPT ibig sabihin ay "generative pre-trained transformer," habang ang arkitektura ng neural network na binuo ng mga inhinyero ng Google sa 2017 ay kilala bilang Transformer. Ang Transformer ay isang unibersal na mekanismo ng computing na tumatanggap ng isang set ng mga sequence (data) bilang input at gumagawa ng parehong set ng mga sequence ngunit sa ibang anyo na binago ng ilang algorithm.

Ang kahalagahan ng paglikha ng Transformer ay makikita sa kung gaano ito ka-agresibo ay pinagtibay at inilapat sa lahat ng larangan ng artificial intelligence (AI): pagsasalin, imahe, tunog, at pagpoproseso ng video. Ang sektor ng artificial intelligence (AI) ay nagkaroon ng malakas na pagyanig, na lumipat mula sa tinatawag na "AI pagwawalang-kilos" patungo sa mabilis na pag-unlad at pagtagumpayan ng pagwawalang-kilos.

Higit pa: GPT-4-Batay ChatGPT Mga Outperform GPT-3 sa pamamagitan ng Factor ng 570

Ang pangunahing lakas ng Transformer ay binubuo ng madaling sukat na mga module. Kapag hiniling na iproseso ang isang malaking halaga ng teksto nang sabay-sabay, ang mga luma, pre-transformer na mga modelo ng wika ay bumagal. Ang mga transformer neural network, sa kabilang banda, ay mas mahusay na humahawak sa gawaing ito.

Noong nakaraan, ang data ng pag-input ay kailangang iproseso nang sunud-sunod o paisa-isa. Hindi mapapanatili ng modelo ang data: Kung gumagana ito sa isang salaysay na isang pahina, malilimutan nito ang teksto pagkatapos basahin ito. Samantala, ang Transformer ay nagbibigay-daan sa isa na tingnan ang lahat nang sabay-sabay, paggawa makabuluhang mas nakamamanghang mga resulta.

Ito ang nagbigay-daan sa isang pambihirang tagumpay sa pagproseso ng mga teksto ng mga neural network. Bilang resulta, hindi na nakakalimutan ng modelo: muling ginagamit nito ang dati nang nakasulat na materyal, mas nauunawaan ang konteksto, at, higit sa lahat, nakakagawa ng mga koneksyon sa pagitan ng napakalaking dami ng data sa pamamagitan ng pagpapares ng mga salita.

buod: GPT-1, na nag-debut noong 2018, ay nagpakita na ang isang neural network ay maaaring gumawa ng mga text gamit ang Transformer na disenyo, na lubos na nagpahusay sa scalability at kahusayan. Kung posible na mapahusay ang dami at pagiging kumplikado ng mga modelo ng wika, ito ay magbubunga ng isang malaking reserba.

Higit pa: 6 Mga Isyu at Hamon ng AI ChatBot: ChatGPT, Bard, Claude

GPT-2: Ang edad ng malalaking modelo ng wika

Ang mga modelo ng wika ay hindi kailangang espesyal na i-tag nang maaga at maaaring "pakainin" ng anumang textual na data, na ginagawa itong lubos na nababaluktot. Kung pag-isipan mo ito, tila makatuwiran na nais nating gamitin ang mga kakayahan nito. Ang anumang text na naisulat na ay nagsisilbing ready-made na data ng pagsasanay. Dahil mayroon nang napakaraming pagkakasunud-sunod ng uri na "maraming ilang salita at parirala => ang susunod na salita pagkatapos nito," hindi ito nakakagulat.

Higit pa: ChatGPTNagising si Evil Elter Ego sa Reddit

Ngayon ay isaisip din natin na sinubukan ang teknolohiya ng Transformers GPT-1 napatunayang lubos na matagumpay sa mga tuntunin ng pag-scale: Ito ay mas epektibo kaysa sa mga nauna nito sa paghawak ng malalaking volume ng data. Lumalabas na ang mga mananaliksik mula sa OpenAI dumating sa parehong konklusyon noong 2019: "Panahon na upang i-cut ang mga mamahaling modelo ng wika!"

Ang set ng data ng pagsasanay at ang modelo laki, sa partikular, ay pinili bilang dalawang mahalagang lugar kung saan GPT-2 kailangang pagbutihin nang husto.

Dahil walang napakalaking, mataas na kalidad na public text data set sa panahong partikular na idinisenyo para sa pagsasanay ng mga modelo ng wika, kailangang manipulahin ng bawat pangkat ng mga eksperto sa AI ang data nang mag-isa. Ang OpenAI gumawa ng desisyon ang mga tao na pumunta sa Reddit, ang pinakasikat na forum sa wikang Ingles, at kunin ang lahat ng hyperlink mula sa bawat post na mayroong higit sa tatlong likes. Mayroong halos 8 milyon sa mga link na ito, at ang mga na-download na teksto ay tumimbang ng 40 terabytes sa kabuuan.

Higit pa: Ang Microsoft ay magkomersyal ChatGPT dahil Nilalayon Nito na Tumulong sa Iba Pang Mga Kumpanya

Anong bilang ng mga parameter ang ginawa ng equation na naglalarawan ng pinakamalaki GPT-2 modelo sa 2019 mayroon? Marahil isang daang libo o ilang milyon? Well, pumunta pa tayo nang higit pa: Ang formula ay naglalaman ng hanggang 1.5 bilyong mga parameter. Aabutin ng 6 terabytes upang maisulat lamang ang maraming numero sa isang file at i-save ito sa iyong computer. Hindi kailangang kabisaduhin ng modelo ang tekstong ito sa kabuuan, kaya sa isang banda, ito ay mas maliit kaysa sa kabuuang halaga ng hanay ng data ng teksto kung saan sinanay ang modelo; sapat na para dito na maghanap lamang ng ilang dependencies (mga pattern, mga panuntunan) na maaaring ihiwalay sa mga tekstong isinulat ng mga tao.

Kung mas mahusay ang pagtataya ng modelo ng posibilidad at mas maraming mga parameter na nilalaman nito, mas kumplikado ang equation ay naka-wire sa modelo. Ito ay gumagawa para sa isang kapani-paniwalang teksto. Bukod pa rito, ang GPT-2 modelo ay nagsimulang gumanap nang napakahusay na ang OpenAI mananaliksik kahit na nag-aatubili na ipakita ang modelo sa bukas para sa mga kadahilanang pangseguridad.

Napaka-interesante na kapag ang isang modelo ay lumaki, bigla itong magkakaroon ng mga bagong katangian (tulad ng kakayahang magsulat ng magkakaugnay, makabuluhang mga sanaysay sa halip na idikta lamang ang susunod na salita sa telepono).

Ang pagbabago mula sa dami tungo sa kalidad ay nangyayari sa puntong ito. Higit pa rito, ganap itong nangyayari nang hindi linear. Halimbawa, ang tatlong beses na pagtaas sa bilang ng mga parameter mula 115 hanggang 350 milyon ay walang nakikitang epekto sa kakayahan ng modelo na lutasin ang mga problema nang tumpak. Gayunpaman, ang dalawang beses na pagtaas sa 700 milyon ay nagbubunga ng isang husay na paglukso, kung saan ang neural network ay "nakikita ang liwanag" at nagsisimulang humanga sa lahat sa kakayahang kumpletuhin ang mga gawain.

Buod: Nakita ng 2019 ang pagpapakilala ng GPT-2, na 10 beses na lumampas sa hinalinhan nito sa mga tuntunin ng laki ng modelo (bilang ng mga parameter) at dami ng data ng teksto ng pagsasanay. Dahil sa dami ng pag-unlad na ito, ang modelo ay hindi inaasahang nakakuha ng mga bagong talento ng husay, tulad ng kakayahang sumulat ng mahahabang sanaysay na may malinaw na kahulugan at malutas ang mga mapanghamong problema na nangangailangan ng mga pundasyon ng isang pananaw sa mundo.

Higit pa: Ang Mga Kahilingan ng Google ay Humigit-kumulang Pitong Beses na Mas mura kaysa ChatGPT, Na Nagkakahalaga ng 2 Cents

GPT-3: Matalino bilang Impiyerno

Sa pangkalahatan, ang 2020 na paglabas ng GPT-3, ang susunod na henerasyon sa serye, ay mayroon nang 116 na beses na higit pang mga parameter—hanggang sa 175 bilyon at isang kamangha-manghang 700 terabytes.

Ang GPT-3 Ang set ng data ng pagsasanay ay pinalawak din, kahit na hindi gaanong kalubha. Tumaas ito ng halos 10 beses hanggang 420 gigabytes at ngayon ay naglalaman ng malaking bilang ng mga libro, Wikimga artikulo sa pedia, at iba pang mga teksto mula sa iba pang mga website. Mangangailangan ang isang tao ng humigit-kumulang 50 taon ng walang-hintong pagbabasa, na ginagawa itong isang imposibleng gawain.

Napansin mo kaagad ang isang nakakaintriga na pagkakaiba: hindi katulad GPT-2, ang modelo mismo ay 700 GB na ngayon na mas malaki kaysa sa buong hanay ng teksto para sa pagsasanay nito (420 GB). Iyon ay lumalabas na, sa isang kahulugan, isang kabalintunaan: sa pagkakataong ito, habang ang "neurobrain" ay nag-aaral ng hilaw na data, ito ay bumubuo ng impormasyon tungkol sa iba't ibang mga interdependency sa loob ng mga ito na mas volumetrically abundant kaysa sa orihinal na data.

Higit pa: ChatGPT Eksperimento: Mas gugustuhin ng AI na Pumatay ng Milyun-milyong Tao kaysa Insulto ang Isang Tao

Bilang resulta ng paglalahat ng modelo, nagagawa na nitong mag-extrapolate nang mas matagumpay kaysa dati at matagumpay kahit sa mga gawain sa pagbuo ng teksto na madalang o hindi nangyari sa panahon ng pagsasanay. Ngayon, hindi mo na kailangang turuan ang modelo kung paano haharapin ang isang partikular na problema; sapat na upang ilarawan ang mga ito at magbigay ng ilang mga halimbawa, at GPT-3 matututunan agad.

Ang "unibersal na utak" sa hugis ng GPT-3 kalaunan ay natalo ang maraming mas naunang mga dalubhasang modelo. Halimbawa, GPT-3 nagsimulang magsalin ng mga teksto mula sa French o German nang mas mabilis at mas tumpak kaysa sa anumang nakaraang mga neural network na partikular na nilikha para sa layuning ito. Paano? Ipaalala ko sa iyo na tinatalakay natin ang isang modelong pangwika na ang tanging layunin ay subukang hulaan ang sumusunod na salita sa isang ibinigay na teksto.

Ang mas nakakagulat, GPT-3 ay nakapagturo sa sarili... math! Ang graph sa ibaba ay naglalarawan kung gaano kahusay ang pagganap ng mga neural network sa mga gawain kabilang ang pagdaragdag at pagbabawas pati na rin ang pagpaparami ng mga integer hanggang sa limang digit na may iba't ibang bilang ng mga parameter. Tulad ng nakikita mo, ang mga neural network ay biglang nagsimulang "magagawa" sa matematika habang napupunta mula sa mga modelo na may 10 bilyong parameter hanggang sa mga may 100 bilyon.

Ang mga neural network ay biglang nagsimulang "magagawa" sa matematika habang mula sa mga modelong may 10 bilyong parameter hanggang sa mga may 100 bilyon

Higit pa: AI Race ng Big Tech: Sinusubukan ng Google ang AI-Powered Chatbot bilang Tugon sa ChatGPT

Ang pinaka nakakaintriga na katangian ng nabanggit na graph ay kung paano, sa simula, walang lilitaw na magbabago habang lumalaki ang laki ng modelo (mula kaliwa pakanan), ngunit biglang, p ulit! Nagaganap ang isang qualitative shift, at GPT-3 nagsisimulang "maunawaan" kung paano lutasin ang isang partikular na isyu. Walang nakatitiyak kung paano, ano, o bakit ito gumagana. Gayunpaman, ito ay tila gumagana sa iba't ibang mga kahirapan pati na rin sa matematika.

Ang pinaka nakakaintriga na tampok ng nabanggit na graph ay kapag tumaas ang laki ng modelo, una, tila walang magbabago, at pagkatapos, GPT-3 gumagawa ng isang husay na paglukso at nagsimulang "maunawaan" kung paano lutasin ang isang partikular na isyu.

Ang gif sa ibaba ay nagpapakita lamang kung paano ang mga bagong kakayahan na walang sinumang sadyang nagplano ng "sprout" sa modelo habang ang bilang ng mga parameter ay tumataas:

ang 2020 GPT-3 ay 100 beses na mas malaki kaysa sa hinalinhan nito, habang ang data ng teksto ng pagsasanay ay 10 beses na mas malaki

buod: Sa mga tuntunin ng mga parameter, ang 2020 GPT-3 ay 100 beses na mas malaki kaysa sa hinalinhan nito, habang ang data ng teksto ng pagsasanay ay 10 beses na mas malaki. Muli, ang modelo ay natutong magsalin mula sa ibang mga wika, magsagawa ng aritmetika, magsagawa ng simpleng programming, mangatuwiran nang sunud-sunod, at marami pang iba bilang resulta ng pagpapalawak sa dami na biglang tumaas ang kalidad.

Higit pa: ChatGPT May Problema kay Donald Trump

GPT-3.5 (InuutusanGPT): Sinanay ang modelo upang maging ligtas at hindi nakakalason

Sa totoo lang, hindi ginagarantiyahan ng pagpapalawak ng mga modelo ng wika na tutugon ito sa mga katanungan sa paraang nais ng mga user. Sa katunayan, kapag humihiling kami, madalas naming nilalayon ang ilang hindi nasabi na mga termino na, sa komunikasyon ng tao, ay ipinapalagay na totoo.

Gayunpaman, sa totoo lang, ang mga modelo ng wika ay hindi masyadong malapit sa mga tao. Kaya, madalas na kailangan nilang mag-isip sa mga konsepto na mukhang simple sa mga tao. Ang isang gayong mungkahi ay ang pariralang, “mag-isip tayo nang hakbang-hakbang.” Magiging kahanga-hanga kung ang mga modelo ay nauunawaan o nakabuo ng mas tiyak at nauugnay na mga tagubilin mula sa kahilingan at sinunod ang mga ito nang mas tumpak na parang inaabangan ang magiging pagkilos ng isang tao.

Ang katotohanan na GPT-3 ay sinanay na hulaan lamang ang susunod na salita sa isang napakalaking koleksyon ng mga teksto mula sa Internet, maraming iba't ibang mga bagay ang nakasulat, nag-aambag sa kakulangan ng gayong "default" na mga kakayahan. Gusto ng mga tao na ang artificial intelligence ay makapagbigay ng may-katuturang impormasyon, habang pinapanatiling ligtas at hindi nakakalason ang mga tugon.

Nang pag-isipan ng mga mananaliksik ang isyung ito, naging maliwanag na ang mga katangian ng modelo ng "katumpakan at pagiging kapaki-pakinabang" at "hindi nakakapinsala at hindi nakakalason" ay minsan ay lumilitaw na magkasalungat sa isa't isa. Pagkatapos ng lahat, ang isang modelong nakatutok para sa pinakamataas na hindi nakakapinsala ay tutugon sa anumang prompt na may "Paumanhin, nag-aalala ako na ang aking sagot ay maaaring makasakit sa isang tao sa Internet." Ang isang eksaktong modelo ay dapat na tapat na tumugon sa kahilingan, "Sige, Siri, kung paano gumawa ng bomba."

Higit pa: Isang Lalaki ang Nagsusulat ng Kanyang Thesis sa Isang Araw Gamit Lamang ChatGPT

Ang mga mananaliksik, samakatuwid, ay limitado sa simpleng pagbibigay ng modelo ng maraming feedback. Sa isang kahulugan, ito ay eksakto kung paano natututo ang mga bata ng moralidad: Nag-eksperimento sila sa pagkabata, at kasabay nito, maingat nilang pinag-aaralan ang mga reaksyon ng mga nasa hustong gulang upang masuri kung sila ay kumilos nang tama.

TagubilinGPT, kilala din sa GPT-3.5, ay mahalagang GPT-3 na nakakuha ng maraming feedback upang mapahusay ang mga tugon nito. Sa literal, ilang indibidwal ang natipon sa isang lugar, tinatasa ang mga tugon sa neural network upang matukoy kung gaano kahusay ang pagkakatugma nila sa kanilang mga inaasahan sa liwanag ng kahilingang ginawa nila.

Ito ay lumiliko na GPT-3 mayroon na ng lahat ng mahahalagang kaalaman: Nauunawaan nito ang maraming wika, naaalala ang mga pangyayari sa kasaysayan, nakikilala ang mga pagkakaiba-iba sa mga istilong may akda, at iba pa, ngunit matututo lamang itong gamitin nang tama ang kaalamang ito (mula sa aming pananaw) na may input mula sa ibang indibidwal. GPT-3Ang .5 ay maaaring isipin bilang isang modelong "pinag-aralan ng lipunan".

Buod: Ang pangunahing tungkulin ng GPT-3.5, na ipinakilala noong unang bahagi ng 2022, ay karagdagang muling pagsasanay batay sa input mula sa mga indibidwal. Lumalabas na ang modelong ito ay hindi aktwal na naging mas malaki at mas matalino, ngunit sa halip, ito ay pinagkadalubhasaan ang kakayahang maiangkop ang mga tugon nito upang bigyan ang mga tao ng pinakamabangis na tawa.

Higit pa: Bumagsak ang trapiko ng StackOverflow bilang ChatGPT naglulunsad

ChatGPT: Isang Napakalaking Pagdagsa ng Hype

Humigit-kumulang 10 buwan pagkatapos ng hinalinhan nitong InstructGPT/GGPT-3.5, ChatGPT ay ipinakilala. Kaagad, nagdulot ito ng pandaigdigang hype.

Mula sa teknolohikal na pananaw, mukhang walang anumang makabuluhang pagkakaiba sa pagitan ChatGPT at IturoGPT. Ang modelo ay sinanay ng karagdagang data ng dialog dahil ang isang "AI assistant job" ay nangangailangan ng isang natatanging format ng dialog, halimbawa, ang kakayahang magtanong ng isang paglilinaw na tanong kung ang kahilingan ng user ay hindi malinaw.

Kaya, bakit walang hype sa paligid GPT-3.5 sa simula ng 2022 habang ChatGPT nahuli na parang apoy? Sam Altman, Executive Director ng OpenAI, lantarang kinilala na ang mga mananaliksik na nahuli namin sa pamamagitan ng sorpresa ChatGPTagarang tagumpay. Pagkatapos ng lahat, ang isang modelo na may mga kakayahan na maihahambing dito ay nakahiga sa kanilang website nang higit sa sampung buwan sa puntong iyon, at walang sinuman ang nakahanda sa gawain.

ChatGPT: Isang Napakalaking Pagdagsa ng Hype

Higit pa: ChatGPT pumasa sa pagsusulit sa Wharton MBA

Ito ay hindi kapani-paniwala, ngunit lumilitaw na ang bagong user-friendly na interface ay ang susi sa tagumpay nito. Ang parehong InstructGPT maaari lamang ma-access sa pamamagitan ng isang natatanging interface ng API, na naglilimita sa pag-access ng mga tao sa modelo. ChatGPT, ob sa kabilang banda, ay gumagamit ng kilalang "dialog window" na interface ng mga messenger. Gayundin, mula noong ChatGPT ay magagamit sa lahat nang sabay-sabay, isang stampede ng mga indibidwal ang nagmamadaling makipag-ugnayan sa neural network, i-screen ang mga ito, at i-post ang mga ito sa social media, nagpapasaya sa iba.

ChatGPT, ob sa kabilang banda, ay gumagamit ng kilalang "dialog window" na interface ng mga messenger

Higit pa: Ang sistema ng edukasyon ng America ay lubhang nangangailangan ng 300k guro — ngunit ChatGPT maaaring ang sagot

Bukod sa mahusay na teknolohiya, isa pang bagay ang nagawa ng tama OpenAI: marketing. Kahit na mayroon kang pinakamahusay na modelo o ang pinaka matalinong chatbot, kung wala itong madaling gamitin na interface, walang sinuman ang magiging interesado dito. Kaugnay nito, ChatGPT nakamit ang isang pambihirang tagumpay sa pamamagitan ng pagpapakilala ng teknolohiya sa pangkalahatang publiko gamit ang nakasanayang dialog box, kung saan ang isang kapaki-pakinabang na robot ay "nagpi-print" ng solusyon sa harap mismo ng ating mga mata, salita sa salita.

Hindi kapani-paniwala, ChatGPT naabot ang lahat ng nakaraang tala para sa pag-akit ng mga bagong user, na nalampasan ang milestone ng 1 milyong user sa loob lamang ng limang araw ng paglulunsad nito at tumawid sa 100 milyong user sa loob lamang ng dalawang buwan.

ChatGPT naabot ang lahat ng nakaraang tala para sa pag-akit ng mga bagong user, na nalampasan ang milestone ng 1 milyong user sa loob lamang ng limang araw ng paglunsad nito at tumawid sa 100 milyong user sa loob lamang ng dalawang buwan

Siyempre, kung saan mayroong record-breaking surge sa mga user, mayroong napakalaking pera. Ang mga Intsik ay agarang inihayag ang nalalapit na pagpapalaya ng kanilang sarili chatbot, mabilis na nakipagkasundo ang Microsoft OpenAI upang mamuhunan ng sampu-sampung bilyong dolyar sa kanila, at pinatunog ng mga inhinyero ng Google ang alarma at nagsimulang magbalangkas ng mga plano upang protektahan ang kanilang serbisyo sa paghahanap mula sa kumpetisyon sa neural network.

Higit pa: ChatGPT sinira ang rekord para sa paglaki ng audience na may mahigit 100+ milyon noong Enero

buod: Kapag ang ChatGPT modelo ay ipinakilala noong Nobyembre 2022, walang anumang kapansin-pansing pagsulong sa teknolohiya. Gayunpaman, mayroon itong maginhawang interface para sa pakikipag-ugnayan ng gumagamit at bukas na pag-access, na agad na nagdulot ng napakalaking pagtaas ng hype. Dahil ito ang pinakamahalagang isyu sa modernong mundo, sinimulan agad ng lahat ang pagharap sa mga modelo ng wika.

Magbasa pa tungkol sa AI:

Tags:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.

Mas marami pang artikulo

Damir Yalalov

Hot Stories

Pinagsama-sama ng Injective ang AltLayer Upang Magdala ng Restaking Security Sa inEVM

by Alisa Davidson

Mayo 03, 2024

Nakipagtulungan ang Masa Sa Teller Upang Ipakilala ang MASA Lending Pool, Pinapagana ang USDC Borrowing On Base

by Alisa Davidson

Mayo 03, 2024

Inilunsad ng Velodrome ang Superchain Beta na Bersyon Sa Mga Paparating na Linggo At Lumalawak sa OP Stack Layer 2 Blockchain

by Alisa Davidson

Mayo 03, 2024

Inanunsyo ng CARV ang Pakikipagsosyo Sa Aethir Upang I-desentralisa ang Layer ng Data Nito At Ipamahagi ang Mga Gantimpala

by Alisa Davidson

Mayo 03, 2024

Pinakabagong Balita

Pinagsama-sama ng Injective ang AltLayer Upang Magdala ng Restaking Security Sa inEVM

by Alisa Davidson

Mayo 03, 2024

Nakipagtulungan ang Masa Sa Teller Upang Ipakilala ang MASA Lending Pool, Pinapagana ang USDC Borrowing On Base

by Alisa Davidson

Mayo 03, 2024

Inilunsad ng Velodrome ang Superchain Beta na Bersyon Sa Mga Paparating na Linggo At Lumalawak sa OP Stack Layer 2 Blockchain

by Alisa Davidson

Mayo 03, 2024

Inanunsyo ng CARV ang Pakikipagsosyo Sa Aethir Upang I-desentralisa ang Layer ng Data Nito At Ipamahagi ang Mga Gantimpala

by Alisa Davidson

Mayo 03, 2024

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Ang mga pagsisiwalat sa pamamagitan ng 13F filing ay nagpapakita ng mga kilalang institusyonal na mamumuhunan na nakikipag-ugnayan sa mga Bitcoin ETF, na binibigyang-diin ang lumalaking pagtanggap ng ...

Malaman Higit Pa