Ang Hugging Face CEO ay Hulaan na Mas Maliit na Modelo ng AI ang Mangibabaw sa 2024
Sa madaling sabi
Makikita sa 2024 ang pagtaas ng Small Language Models, habang itinutulak ng mga kumpanya ang mga hangganan ng kahusayan, pagiging epektibo sa gastos at pagiging naa-access.
para artificial intelligence, ang taong 2024 ay nakahanda upang markahan ang isang makabuluhang punto ng pagbabago — sa pag-usbong ng Small Language Models (SLMs), habang itinutulak ng mga kumpanya ang mga hangganan ng kahusayan, pagiging epektibo sa gastos at pagiging naa-access.
Ang paglalakbay mula sa pangingibabaw ng napakalaking Large Language Models (LLMs) hanggang sa paglitaw ng mga compact, powerful SLMs ay nangangako na muling hubugin ang AI landscape.
Nahanap ng claim na ito ang suportadong form nito Clam Delangue, co-founder at CEO ng Nakayakap sa Mukha.
“Ang Phi-2 ng Microsoft AI ngayon ang numero unong trending na modelo sa Hugging Face. Ang 2024 ang magiging taon ng maliliit na modelo ng AI!" sabi ni Delangue, sa isang Ang post ng LinkedIn.
Higit pa rito, noong unang bahagi ng Disyembre, ang French AI startup na Mistral, sa lalong madaling panahon matapos ang pagtaas ng malaking halaga $ 415 Milyon round ng pagpopondo, ipinakilala ang Mixtral 8x7B, isang open-source na SLM na mabilis na nakakuha ng traksyon para sa kakayahan nitong karibal ang kalidad ng GPT-3.5 sa ilang partikular na benchmark, lahat habang tumatakbo sa isang computer na may katamtamang 100 gigabytes ng RAM.
Ang diskarte ng Mistral, na tinatawag na isang 'kalat-kalat na halo ng mga eksperto' na modelo, ay pinagsasama ang mas maliliit na modelo na sinanay para sa mga partikular na gawain, na nakakamit ng kahanga-hangang kahusayan.
Hindi dapat madaig, tech giant microsoft pumasok sa arena kasama ang Phi-2, ang pinakabagong bersyon ng SLM nito sa bahay. Kapansin-pansing maliit na may lamang 2.7 bilyong mga parameter, ang Phi-2 ay idinisenyo upang tumakbo sa isang mobile phone, na nagpapakita ng pangako ng industriya sa pagbabawas ng mga modelo nang hindi nakompromiso ang mga kakayahan.
Tulad ng mga modelo GPT-3, na ipinagmamalaki ang nakakagulat na 175 bilyong mga parameter, ay nagpakita ng kakayahang bumuo ng tekstong tulad ng tao, sagutin ang mga tanong at ibuod ang mga dokumento. Gayunpaman, ang mga likas na downside ng LLM, kabilang ang mga alalahanin na nauugnay sa kahusayan, gastos, at pagiging customizability, ay nagbigay daan para sa pag-angat ng mga SLM.
Mga Salik na Nagtutulak sa Maliit na Scale Language Model Development
Ipinagmamalaki ng mga SLM ang isang streamlined na diskarte na may mas kaunting mga parameter, na nagreresulta sa mas mabilis na bilis ng hinuha at mas mataas na throughput. Ang kanilang pinababang memorya at mga kinakailangan sa imbakan ay ginagawang maliksi ang mga proseso ng computational, na hinahamon ang kumbensyonal na paniniwala na ang kapasidad ng modelo ay dapat palaging kahanay sa paglaki ng gana sa data.
Habang ang mga malalaking modelo ng wika ay gusto GPT-3 nagkakaroon ng napakalaking gastos – madalas sa sampu-sampung milyong dolyar para sa pagpapaunlad – ang mga SLM ay nagpapakita ng alternatibong matipid.
Ang mga modelong ito ay maaaring sanayin, i-deploy at patakbuhin sa madaling magagamit na commodity hardware, na ginagawa itong mapagpipilian sa pananalapi para sa mga negosyo. Higit pa rito, ang kanilang katamtamang mga kinakailangan sa mapagkukunan ay nagpoposisyon sa kanila bilang mga mainam na kandidato para sa mga application sa edge computing, na tumatakbo nang offline sa mga device na mas mababa ang power.
Katulad nito, ang pangunahing lakas ng mga SLM ay nakasalalay sa kanilang pagiging customizable. Hindi tulad ng kanilang mas malalaking katapat, na kumakatawan sa mga kompromiso sa mga domain, ang mga SLM ay maaaring maayos na ibagay para sa mga partikular na aplikasyon. Ang kanilang mabilis na pag-ulit ng mga siklo ay nagpapadali sa praktikal na pag-eeksperimento, na nagpapahintulot sa mga developer na iakma ang mga modelo sa mga partikular na pangangailangan.
Habang papalapit tayo sa 2024, ang pagtaas ng mga modelo ng maliliit na wika ay nagpapahiwatig ng pagbabagong panahon sa artificial intelligence. Ang entablado ay nakatakda para sa Taon ng Mga Maliit na Modelo ng AI, kung saan ang pagbabago at pagiging naa-access ay muling nagsasama-samadefine ang mga posibilidad ng artificial intelligence.
Pagtanggi sa pananagutan
Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.
Tungkol sa Ang May-akda
Si Kumar ay isang makaranasang Tech Journalist na may espesyalisasyon sa mga dynamic na intersection ng AI/ML, teknolohiya sa marketing, at mga umuusbong na larangan tulad ng crypto, blockchain, at NFTs. Sa mahigit 3 taong karanasan sa industriya, si Kumar ay nagtatag ng isang napatunayang track record sa paggawa ng mga nakakahimok na salaysay, pagsasagawa ng mga insightful na panayam, at paghahatid ng mga komprehensibong insight. Ang kadalubhasaan ni Kumar ay nakasalalay sa paggawa ng nilalamang may mataas na epekto, kabilang ang mga artikulo, ulat, at mga publikasyong pananaliksik para sa mga kilalang platform ng industriya. Sa isang natatanging hanay ng kasanayan na pinagsasama ang teknikal na kaalaman at pagkukuwento, mahusay si Kumar sa pakikipag-usap ng mga kumplikadong teknolohikal na konsepto sa magkakaibang mga madla sa isang malinaw at nakakaengganyo na paraan.
Mas marami pang artikuloSi Kumar ay isang makaranasang Tech Journalist na may espesyalisasyon sa mga dynamic na intersection ng AI/ML, teknolohiya sa marketing, at mga umuusbong na larangan tulad ng crypto, blockchain, at NFTs. Sa mahigit 3 taong karanasan sa industriya, si Kumar ay nagtatag ng isang napatunayang track record sa paggawa ng mga nakakahimok na salaysay, pagsasagawa ng mga insightful na panayam, at paghahatid ng mga komprehensibong insight. Ang kadalubhasaan ni Kumar ay nakasalalay sa paggawa ng nilalamang may mataas na epekto, kabilang ang mga artikulo, ulat, at mga publikasyong pananaliksik para sa mga kilalang platform ng industriya. Sa isang natatanging hanay ng kasanayan na pinagsasama ang teknikal na kaalaman at pagkukuwento, mahusay si Kumar sa pakikipag-usap ng mga kumplikadong teknolohikal na konsepto sa magkakaibang mga madla sa isang malinaw at nakakaengganyo na paraan.