Ipinakilala ng Alibaba ang Open-Source Qwen-7B Language Model
Inihayag ng Alibaba ang kanyang open-source na Large Language Model (LLM) na pinangalanang Qwen-7B, na minarkahan ang kanilang inaugural na pagpasok sa larangan ng mga LLM na naa-access ng publiko. Ang modelong ito ay binuo sa 7 bilyong mga parameter.
Para sa konteksto, sumailalim ang Qwen-7B sa pagsasanay gamit ang 2.2 trilyong token. Ang laki ng konteksto na itinakda sa yugto ng pagsasanay na ito ay 2048, habang ang mga user ay maaaring palawigin ito sa maximum na 8192 sa panahon ng pagsubok. Sa paghahambing, Llama-2, isa pang LLM, ay nag-aalok ng laki ng konteksto na 4096.
Mahalaga ang mga benchmark para sa pagsukat ng pagganap ng mga naturang modelo, at sa domain na ito, iginiit ng mga developer ng China na nalampasan ng Qwen-7B Llama-2. Ang isang sukatan na kapansin-pansin ay ang Human-Eval coding benchmark, kung saan ang Qwen-7B ay nakakuha ng 24.4 laban Llama-2's 12.8. Gayunpaman, maingat na tingnan ang mga numerong ito nang may antas ng pag-iingat. Ang ilang mga benchmark ay nagpapahiwatig na ang Qwen-7B ay hindi lamang gumaganap ng batayang modelo ng LLama-2-7B kundi pati na rin ang LLaMA-2-13B na variant. Gayunpaman, kapag inilaban sa mga pinong bersyon ng Llama-2, ang margin ng pagkakaiba ay nagiging mas makitid. Dapat tandaan na ang eksaktong pamamaraan ng pagsasanay ng Qwen-7B ay hindi malinaw na detalyado ng mga developer nito.
Sa functionality parallel sa LLaMa2-chat, ipinakita ni Qwen ang isang chat-centric na bersyon na pinangalanang Qwen-7B-Chat. Ang modelong ito ay na-optimize upang makipag-ugnayan sa mga user at isinasama ang iba't ibang mga tool at Mga API upang mapahusay ang pagtugon nito.
Ang mga may hilig sa mga teknikal na detalye ay magiging interesadong malaman na ang pundasyon ng arkitektura ng Qwen-7B ay may pagkakahawig sa LLaMA. Gayunpaman, may mga natatanging tampok na nagpapaiba sa Qwen-7B:
- Gumagamit ito ng hindi nakatali na pag-embed.
- Ginagamit ang rotary positional embedding.
- Ang mga bias ay hindi kasama, maliban sa QKV sa atensyon.
- Ang RMSNorm ay pinapaboran kaysa sa LayerNorm.
- Sa halip na ang karaniwang ReLU, ang SwiGLU ay isinama.
- Ang atensyon ng flash ay ipinakilala upang mapabilis ang proseso ng pagsasanay.
- Binubuo ang modelo ng 32 layer, may dimensyon ng pag-embed na 4096, at tumatanggap ng 32 attention head.
Sa mga tuntunin ng paglilisensya, nakahanay ang Qwen-7B sa Llama-2. Pinahihintulutan nito ang komersyal na paggamit, ngunit may itinatakda sa dami ng gumagamit. Habang Llama-2 ay nagtatakda ng cap na ito sa 700 milyong aktibong user bawat buwan, ang threshold ng Qwen-7B ay 100 milyon.
Ang mga naghahanap ng malalim na pagsusuri ay maaaring sumangguni sa teknikal na ulat na available sa GitHub. Bukod pa rito, isang demonstrasyon ng Qwen-7B, na ibinigay sa wikang Chinese, ay naa-access para sa mga interesado sa isang praktikal na paggalugad ng mga kakayahan ng modelo.
Magbasa pa tungkol sa AI:
Pagtanggi sa pananagutan
Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.
Tungkol sa Ang May-akda
Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.
Mas marami pang artikuloSi Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet.