markets Ulat sa Balita
Agosto 08, 2023

Ipinakilala ng Alibaba ang Open-Source Qwen-7B Language Model

Inihayag ng Alibaba ang kanyang open-source na Large Language Model (LLM) na pinangalanang Qwen-7B, na minarkahan ang kanilang inaugural na pagpasok sa larangan ng mga LLM na naa-access ng publiko. Ang modelong ito ay binuo sa 7 bilyong mga parameter.

Ipinakilala ng Alibaba ang Open-Source Qwen-7B Language Model

Para sa konteksto, sumailalim ang Qwen-7B sa pagsasanay gamit ang 2.2 trilyong token. Ang laki ng konteksto na itinakda sa yugto ng pagsasanay na ito ay 2048, habang ang mga user ay maaaring palawigin ito sa maximum na 8192 sa panahon ng pagsubok. Sa paghahambing, Llama-2, isa pang LLM, ay nag-aalok ng laki ng konteksto na 4096.

Mahalaga ang mga benchmark para sa pagsukat ng pagganap ng mga naturang modelo, at sa domain na ito, iginiit ng mga developer ng China na nalampasan ng Qwen-7B Llama-2. Ang isang sukatan na kapansin-pansin ay ang Human-Eval coding benchmark, kung saan ang Qwen-7B ay nakakuha ng 24.4 laban Llama-2's 12.8. Gayunpaman, maingat na tingnan ang mga numerong ito nang may antas ng pag-iingat. Ang ilang mga benchmark ay nagpapahiwatig na ang Qwen-7B ay hindi lamang gumaganap ng batayang modelo ng LLama-2-7B kundi pati na rin ang LLaMA-2-13B na variant. Gayunpaman, kapag inilaban sa mga pinong bersyon ng Llama-2, ang margin ng pagkakaiba ay nagiging mas makitid. Dapat tandaan na ang eksaktong pamamaraan ng pagsasanay ng Qwen-7B ay hindi malinaw na detalyado ng mga developer nito.

Sa functionality parallel sa LLaMa2-chat, ipinakita ni Qwen ang isang chat-centric na bersyon na pinangalanang Qwen-7B-Chat. Ang modelong ito ay na-optimize upang makipag-ugnayan sa mga user at isinasama ang iba't ibang mga tool at Mga API upang mapahusay ang pagtugon nito.

Ang mga may hilig sa mga teknikal na detalye ay magiging interesadong malaman na ang pundasyon ng arkitektura ng Qwen-7B ay may pagkakahawig sa LLaMA. Gayunpaman, may mga natatanging tampok na nagpapaiba sa Qwen-7B:

  1. Gumagamit ito ng hindi nakatali na pag-embed.
  2. Ginagamit ang rotary positional embedding.
  3. Ang mga bias ay hindi kasama, maliban sa QKV sa atensyon.
  4. Ang RMSNorm ay pinapaboran kaysa sa LayerNorm.
  5. Sa halip na ang karaniwang ReLU, ang SwiGLU ay isinama.
  6. Ang atensyon ng flash ay ipinakilala upang mapabilis ang proseso ng pagsasanay.
  7. Binubuo ang modelo ng 32 layer, may dimensyon ng pag-embed na 4096, at tumatanggap ng 32 attention head.

Sa mga tuntunin ng paglilisensya, nakahanay ang Qwen-7B sa Llama-2. Pinahihintulutan nito ang komersyal na paggamit, ngunit may itinatakda sa dami ng gumagamit. Habang Llama-2 ay nagtatakda ng cap na ito sa 700 milyong aktibong user bawat buwan, ang threshold ng Qwen-7B ay 100 milyon.

Ang mga naghahanap ng malalim na pagsusuri ay maaaring sumangguni sa teknikal na ulat na available sa GitHub. Bukod pa rito, isang demonstrasyon ng Qwen-7B, na ibinigay sa wikang Chinese, ay naa-access para sa mga interesado sa isang praktikal na paggalugad ng mga kakayahan ng modelo.

Magbasa pa tungkol sa AI:

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Ang mga pagsisiwalat sa pamamagitan ng 13F filing ay nagpapakita ng mga kilalang institusyonal na mamumuhunan na nakikipag-ugnayan sa mga Bitcoin ETF, na binibigyang-diin ang lumalaking pagtanggap ng ...

Malaman Higit Pa

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
Nakikipagtulungan ang Espresso Systems Sa Polygon Labs Upang Bumuo ng AggLayer Para sa Pagpapahusay ng Rollup Interoperability
Negosyo Ulat sa Balita Teknolohiya
Nakikipagtulungan ang Espresso Systems Sa Polygon Labs Upang Bumuo ng AggLayer Para sa Pagpapahusay ng Rollup Interoperability
Mayo 9, 2024
Ang ZKP-powered Infrastructure Protocol ZKBase ay Nagbubunyag ng Roadmap, Mga Plano sa Testnet Launch Sa Mayo
Ulat sa Balita Teknolohiya
Ang ZKP-powered Infrastructure Protocol ZKBase ay Nagbubunyag ng Roadmap, Mga Plano sa Testnet Launch Sa Mayo
Mayo 9, 2024
BLOCKCHANCE at CONF3RENCE Magkaisa para sa Pinakamalaking Germany Web3 Kumperensya sa Dortmund
Negosyo markets software Mga Kuwento at Pagsusuri Teknolohiya
BLOCKCHANCE at CONF3RENCE Magkaisa para sa Pinakamalaking Germany Web3 Kumperensya sa Dortmund
Mayo 9, 2024
Inilunsad ang NuLink Sa Bybit Web3 IDO Platform. Umaabot ang Yugto ng Subscription Hanggang Mayo 13
markets Ulat sa Balita Teknolohiya
Inilunsad ang NuLink Sa Bybit Web3 IDO Platform. Umaabot ang Yugto ng Subscription Hanggang Mayo 13
Mayo 9, 2024
CRYPTOMERIA LABS PTE. LTD.