Alibaba predstavuje jazykový model Qwen-7B s otvoreným zdrojom
Alibaba predstavila svoj open-source Large Language Model (LLM) s názvom Qwen-7B, čo znamená ich inauguračný vstup do sféry verejne prístupných LLM. Tento model je postavený na 7 miliardách parametrov.
Pre kontext, Qwen-7B prešiel tréningom s použitím 2.2 bilióna tokenov. Veľkosť kontextu nastavená počas tejto tréningovej fázy bola 2048, pričom používatelia ju môžu počas testovania rozšíriť na maximálne 8192. V porovnaní, Llama-2, ďalší LLM, ponúka kontextovú veľkosť 4096.
Benchmarky sú nevyhnutné na meranie výkonu takýchto modelov a v tejto oblasti čínski vývojári tvrdia, že Qwen-7B prekonal Llama-2. Jednou metrikou, ktorá vyniká, je benchmark kódovania Human-Eval, kde Qwen-7B má skóre 24.4 oproti Llama-2 je 12.8. Je však rozumné pozerať sa na tieto čísla s určitou opatrnosťou. Niektoré referenčné hodnoty naznačujú, že Qwen-7B prekonáva nielen základný model LLama-2-7B ale aj LLaMA-2-13B variant. Avšak, keď sa postavil proti rafinovaným verziám Llama-2, hranica rozdielu sa zužuje. Je potrebné poznamenať, že presná metodika výcviku Qwen-7B nebola explicitne podrobne popísaná jeho vývojármi.
Vo funkčnosti paralelne s LLaMa2-chat, Qwen predstavila verziu zameranú na chat s názvom Qwen-7B-Chat. Tento model je optimalizovaný na interakciu s používateľmi a zahŕňa rôzne nástroje a API na zvýšenie jeho schopnosti reagovať.
Tých, ktorí majú sklon k technickým špecifikám, by zaujímalo, že architektonický základ Qwen-7B sa podobá LLaMA. Existujú však odlišné vlastnosti, ktoré odlišujú Qwen-7B:
- Využíva neviazané vkladanie.
- Využíva sa rotačné polohové uloženie.
- Predsudky sú vylúčené, s výnimkou QKV v pozornosti.
- RMSNorm je uprednostňovaný pred LayerNorm.
- Namiesto štandardného ReLU je zabudovaný SwiGLU.
- Flash pozornosť bola zavedená na urýchlenie tréningového procesu.
- Model obsahuje 32 vrstiev, má rozmer vloženia 4096 a pojme 32 hláv pozornosti.
Pokiaľ ide o licencovanie, Qwen-7B je v súlade s Llama-2. Umožňuje komerčné využitie, ale s výhradou objemu používateľov. Zatiaľ čo Llama-2 stanovuje tento limit na 700 miliónov aktívnych používateľov mesačne, hranica Qwen-7B je 100 miliónov.
Tí, ktorí hľadajú hĺbkové preskúmanie, si môžu pozrieť technickú správu dostupnú na GitHub. okrem toho ukážka Qwen-7B, poskytovaná v čínskom jazyku, je prístupná pre záujemcov o praktické preskúmanie možností modelu.
Prečítajte si viac o AI:
Vylúčenie zodpovednosti
V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.
O autorovi
Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.
Ďalšie článkyDamir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.