Az Alibaba bemutatja a nyílt forráskódú Qwen-7B nyelvi modellt
Az Alibaba bemutatta nyílt forráskódú Large Language Model-jét (LLM). Qwen-7B, jelezve első lépésüket a nyilvánosan elérhető LLM-ek birodalmába. Ez a modell 7 milliárd paraméterre épül.
A környezet szempontjából a Qwen-7B 2.2 billió token felhasználásával végzett kiképzésen. Az ebben a képzési szakaszban beállított kontextusméret 2048 volt, míg a felhasználók ezt a tesztelés során maximum 8192-re bővíthetik. Összehasonlítva, Llama-2, egy másik LLM, 4096-os környezetméretet kínál.
A benchmarkok elengedhetetlenek az ilyen modellek teljesítményének felméréséhez, és ezen a területen a kínai fejlesztők azt állítják, hogy a Qwen-7B felülmúlta Llama-2. Az egyik kiemelkedő mutató a Human-Eval kódolási benchmark, ahol a Qwen-7B pontszáma 24.4 Llama-2-es 12.8. Érdemes azonban ezeket a számokat bizonyos fokú óvatossággal szemlélni. Egyes benchmarkok azt mutatják, hogy a Qwen-7B nem csak az alapmodellnél jobb teljesítményt nyújt LLama-2-7B hanem a LLaMA-2-13B változat. Azonban, ha szembeállítjuk a finomított változataival Llama-2, a különbségi határ szűkül. Meg kell jegyezni, hogy a Qwen-7B pontos edzésmódszerét a fejlesztők nem részletezték kifejezetten.
A funkcióval párhuzamosan LLaMaA 2-chat, a Qwen bemutatta a Qwen-7B-Chat csevegésközpontú változatát. Ez a modell a felhasználókkal való interakcióra lett optimalizálva, és különféle eszközöket és eszközöket tartalmaz API-k reagálóképességének fokozására.
A műszaki sajátosságok iránt érdeklődőket érdekelné, hogy a Qwen-7B építészeti alapja hasonlít a LLaMA. Vannak azonban olyan jellegzetességek, amelyek megkülönböztetik a Qwen-7B-t:
- Kötetlen beágyazást alkalmaz.
- Rotációs pozicionális beágyazást alkalmaznak.
- A torzítások kizárva, a QKV kivételével a figyelemben.
- Az RMSNorm előnyben részesített a LayerNorm helyett.
- A szabványos ReLU helyett a SwiGLU került beépítésre.
- Flash figyelem került bevezetésre a képzési folyamat felgyorsítása érdekében.
- A modell 32 rétegből áll, beágyazási mérete 4096, és 32 figyelemfelkeltő fejet tartalmaz.
Ami a licencet illeti, a Qwen-7B igazodik a Llama-2. Megengedi a kereskedelmi felhasználást, de a felhasználói mennyiségre vonatkozó kikötéssel. Míg LlamaA -2 ezt a felső határt havi 700 millió aktív felhasználóban határozza meg, a Qwen-7B küszöbe 100 millió.
Azok, akik mélyreható vizsgálatot szeretnének, a GitHubon elérhető technikai jelentést tekinthetik meg. Ezenkívül a Qwen-7B bemutatója, amely kínai nyelven áll rendelkezésre, elérhető azok számára, akiket a modell képességeinek gyakorlati felfedezése érdekel.
Tudjon meg többet az AI-ról:
A felelősség megtagadása
Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.
A szerzőről
Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.
További cikkekDamir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.