Alibaba introducerar öppen källkod Qwen-7B språkmodell
Alibaba har avslöjat sin öppna källkod Large Language Model (LLM) som heter Qwen-7B, som markerar deras första inträde i riket av allmänt tillgängliga LLM. Denna modell bygger på 7 miljarder parametrar.
För sammanhang genomgick Qwen-7B träning med 2.2 biljoner tokens. Kontextstorleken som sattes in under denna utbildningsfas var 2048, medan användare kan utöka denna till maximalt 8192 under testning. Som jämförelse, Llama-2, en annan LLM, erbjuder en kontextstorlek på 4096.
Riktmärken är viktiga för att mäta prestandan hos sådana modeller, och på detta område hävdar de kinesiska utvecklarna att Qwen-7B har överträffat Llama-2. Ett mått som sticker ut är Human-Eval-kodningsriktmärket, där Qwen-7B får 24.4 mot Llama-2 är 12.8. Det är dock klokt att se dessa siffror med en viss försiktighet. Vissa riktmärken indikerar att Qwen-7B överträffar inte bara basmodellen LLama-2-7B men också LLaMA-2-13B variant. Men när det ställs mot de raffinerade versionerna av Llama-2, skillnadsmarginalen blir smalare. Det bör noteras att den exakta träningsmetoden för Qwen-7B inte har explicit specificerats av dess utvecklare.
I funktionalitet parallellt med LLaMa2-chat, Qwen har presenterat en chattcentrerad version som heter Qwen-7B-Chat. Denna modell är optimerad för att interagera med användare och innehåller olika verktyg och API: er för att förbättra dess lyhördhet.
De med en böjelse för tekniska detaljer skulle vara intresserade av att veta att Qwen-7B:s arkitektoniska fundament påminner om LLaMA. Det finns dock distinkta egenskaper som skiljer Qwen-7B:
- Den använder obunden inbäddning.
- Roterande positionsinbäddning används.
- Fördomar är uteslutna, med undantag för QKV i uppmärksamhet.
- RMSNorm gynnas framför LayerNorm.
- Istället för standarden ReLU ingår SwiGLU.
- Flash uppmärksamhet har införts för att påskynda utbildningsprocessen.
- Modellen består av 32 lager, har en inbäddningsdimension på 4096 och rymmer 32 uppmärksamhetshuvuden.
När det gäller licensiering överensstämmer Qwen-7B med Llama-2. Det tillåter kommersiell användning, men med en bestämmelse om användarvolym. Medan Llama-2 sätter detta tak på 700 miljoner aktiva användare per månad, Qwen-7B:s tröskel är 100 miljoner.
De som söker en fördjupad undersökning kan hänvisa till den tekniska rapporten som finns tillgänglig på GitHub. Dessutom, en demonstration av Qwen-7B, tillhandahållen på kinesiska språket, är tillgänglig för dem som är intresserade av en praktisk utforskning av modellens kapacitet.
Läs mer om AI:
Villkor
I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.
Om författaren
Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.
fler artiklarDamir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.