August 08, 2023

Alibaba introducerer open source Qwen-7B sprogmodel

Udgivet: 08. august 2023 kl. 10 Opdateret: 54. august 11 kl. 2023

Redigeret og faktatjekket: 08. august 2023 kl. 10:54

Alibaba har afsløret sin open source Large Language Model (LLM) navngivet Qwen-7B, som markerer deres første indtræden i området for offentligt tilgængelige LLM'er. Denne model er bygget på 7 milliarder parametre.

Alibaba introducerer open source Qwen-7B sprogmodel

Til kontekst gennemgik Qwen-7B træning ved at bruge 2.2 billioner tokens. Kontekststørrelsen indstillet under denne træningsfase var 2048, mens brugere kan udvide denne til maksimalt 8192 under test. Til sammenligning, Llama-2, en anden LLM, tilbyder en kontekststørrelse på 4096.

Benchmarks er afgørende for at måle ydeevnen af sådanne modeller, og på dette domæne hævder de kinesiske udviklere, at Qwen-7B har overgået Llama-2. En metrik, der skiller sig ud, er Human-Eval-kodningsbenchmark, hvor Qwen-7B scorer 24.4 mod Llama-2'er 12.8. Det er dog klogt at se disse tal med en vis forsigtighed. Nogle benchmarks indikerer, at Qwen-7B ikke kun klarer sig bedre end basismodellen LLama-2-7B men også LLaMA-2-13B variant. Men når det stilles op mod de raffinerede versioner af Llama-2 bliver forskelsmarginen smallere. Det skal bemærkes, at den nøjagtige træningsmetodologi for Qwen-7B ikke er blevet eksplicit beskrevet af dens udviklere.

I funktionalitet parallelt med LLaMa2-chat, Qwen har præsenteret en chat-centreret version ved navn Qwen-7B-Chat. Denne model er optimeret til at interagere med brugere og inkorporerer forskellige værktøjer og API'er for at øge dens reaktionsevne.

Dem med en tilbøjelighed til tekniske detaljer ville være interesseret i at vide, at Qwen-7B's arkitektoniske fundament minder om LLaMA. Der er dog forskellige funktioner, der adskiller Qwen-7B:

Den anvender ubundet indlejring.
Roterende positionsindlejring anvendes.
Bias er udelukket, med undtagelse af QKV i opmærksomhed.
RMSNorm foretrækkes frem for LayerNorm.
I stedet for standard ReLU er SwiGLU indbygget.
Flash opmærksomhed er blevet introduceret for at fremskynde træningsprocessen.
Modellen består af 32 lag, har en indlejringsdimension på 4096 og rummer 32 opmærksomhedshoveder.

Med hensyn til licensering er Qwen-7B på linje med Llama-2. Det tillader kommerciel brug, men med en bestemmelse om brugervolumen. Mens Llama-2 sætter dette loft til 700 millioner aktive brugere om måneden, Qwen-7B's tærskel er 100 millioner.

De, der søger en dybdegående undersøgelse, kan henvise til den tekniske rapport, der er tilgængelig på GitHub. Derudover en demonstration af Qwen-7B, leveret på det kinesiske sprog, er tilgængelig for dem, der er interesseret i en praktisk udforskning af modellens muligheder.

Læs mere om AI:

tags:

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.

Flere artikler

Damir Yalalov