Alibaba introduceert open-source Qwen-7B-taalmodel
Alibaba heeft zijn open-source Large Language Model (LLM) onthuld Qwen-7B, waarmee ze hun eerste intrede in het rijk van openbaar toegankelijke LLM's markeerden. Dit model is gebaseerd op 7 miljard parameters.
Ter context: Qwen-7B heeft een training gevolgd met behulp van 2.2 biljoen tokens. De tijdens deze trainingsfase ingestelde contextgrootte was 2048, terwijl gebruikers dit tijdens het testen kunnen uitbreiden tot maximaal 8192. Ter vergelijking, Llama-2, een andere LLM, biedt een contextgrootte van 4096.
Benchmarks zijn essentieel voor het meten van de prestaties van dergelijke modellen, en op dit gebied beweren de Chinese ontwikkelaars dat Qwen-7B de concurrentiestrijd heeft overtroffen. Llama-2. Een statistiek die opvalt is de Human-Eval-coderingsbenchmark, waar Qwen-7B 24.4 scoort ten opzichte van Llama-2 is 12.8. Het is echter verstandig om deze cijfers met enige voorzichtigheid te bekijken. Sommige benchmarks geven aan dat Qwen-7B niet alleen beter presteert dan het basismodel LLama-2-7B maar ook de LLaMA-2-13B-variant. Wanneer je het echter vergelijkt met de verfijnde versies van Llama-2, de verschilmarge wordt kleiner. Opgemerkt moet worden dat de exacte trainingsmethodologie van Qwen-7B niet expliciet is gedetailleerd door de ontwikkelaars.
In functionaliteit parallel aan LLaMa2-chat heeft Qwen een chatgerichte versie gepresenteerd genaamd Qwen-7B-Chat. Dit model is geoptimaliseerd voor interactie met gebruikers en bevat verschillende tools en APIs om zijn reactievermogen te verbeteren.
Degenen met een neiging tot technische details zouden geïnteresseerd zijn om te weten dat de architecturale basis van Qwen-7B gelijkenis vertoont met LLaMA. Er zijn echter verschillende kenmerken die Qwen-7B onderscheiden:
- Het maakt gebruik van ongebonden inbedding.
- Roterende positionele inbedding wordt gebruikt.
- Vooroordelen zijn uitgesloten, met uitzondering van QKV in aandacht.
- RMSNorm heeft de voorkeur boven LayerNorm.
- In plaats van de standaard ReLU is SwiGLU opgenomen.
- Flash attention is geïntroduceerd om het trainingsproces te versnellen.
- Het model bestaat uit 32 lagen, heeft een inbeddingsdimensie van 4096 en biedt plaats aan 32 aandachtshoofden.
Op het gebied van licentieverlening sluit Qwen-7B aan bij Llama-2. Het staat commercieel gebruik toe, maar met een bepaling over het gebruikersvolume. Terwijl Llama-2 stelt deze limiet vast op 700 miljoen actieve gebruikers per maand, de drempel van Qwen-7B is 100 miljoen.
Degenen die een diepgaand onderzoek willen, kunnen het technische rapport raadplegen dat beschikbaar is op GitHub. Aanvullend, een demonstratie van Qwen-7B, beschikbaar in de Chinese taal, is toegankelijk voor diegenen die geïnteresseerd zijn in een praktische verkenning van de mogelijkheden van het model.
Lees meer over AI:
Disclaimer
In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.
Over de auteur
Damir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.
Meer artikelenDamir is de teamleider, productmanager en redacteur bij Metaverse Post, met onderwerpen als AI/ML, AGI, LLM's, Metaverse en Web3-gerelateerde velden. Zijn artikelen trekken maandelijks een enorm publiek van meer dan een miljoen gebruikers. Hij blijkt een expert te zijn met 10 jaar ervaring in SEO en digitale marketing. Damir is genoemd in Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto en andere publicaties. Hij reist als digitale nomade tussen de VAE, Turkije, Rusland en het GOS. Damir behaalde een bachelordiploma in natuurkunde, wat hem volgens hem de kritische denkvaardigheden heeft gegeven die nodig zijn om succesvol te zijn in het steeds veranderende landschap van internet.