Alibaba представя Qwen-7B езиков модел с отворен код
Alibaba представи своя голям езиков модел (LLM) с отворен код на име Qwen-7B, отбелязвайки първото им влизане в сферата на публично достъпните LLMs. Този модел е изграден върху 7 милиарда параметъра.
За контекст, Qwen-7B премина обучение с помощта на 2.2 трилиона токена. Размерът на контекста, зададен по време на тази фаза на обучение, беше 2048, докато потребителите могат да го разширят до максимум 8192 по време на тестване. За сравнение, Llama-2, друг LLM, предлага размер на контекста от 4096.
Бенчмарковете са от съществено значение за измерване на производителността на такива модели и в тази област китайските разработчици твърдят, че Qwen-7B е надминал Llama-2. Един показател, който се откроява, е бенчмаркът за кодиране Human-Eval, където Qwen-7B отбелязва 24.4 срещу Llama-2 е 12.8. Въпреки това е разумно тези числа да се разглеждат с известна предпазливост. Някои бенчмаркове показват, че Qwen-7B превъзхожда не само базовия модел на LLama-2-7B, но също и LLaMA-2-13B вариант. Въпреки това, когато се изправи срещу усъвършенстваните версии на Llama-2, границата на разликата става по-тясна. Трябва да се отбележи, че точната методология на обучение на Qwen-7B не е изрично описана от разработчиците.
По функционалност, успоредна на LLaMa2-чат, Qwen представи ориентирана към чат версия, наречена Qwen-7B-Chat. Този модел е оптимизиран за взаимодействие с потребителите и включва различни инструменти и APIs за да подобри неговата отзивчивост.
Тези, които имат склонност към технически специфики, ще се интересуват да знаят, че архитектурната основа на Qwen-7B прилича на LLaMA. Има обаче различни характеристики, които отличават Qwen-7B:
- Той използва необвързано вграждане.
- Използва се ротационно позиционно вграждане.
- Пристрастията са изключени, с изключение на QKV във вниманието.
- RMSNorm е предпочитан пред LayerNorm.
- Вместо стандартния ReLU е включен SwiGLU.
- Въведено е бързо внимание за ускоряване на тренировъчния процес.
- Моделът се състои от 32 слоя, има размер на вграждане 4096 и побира 32 глави за внимание.
По отношение на лицензирането, Qwen-7B се привежда в съответствие с Llama-2. Позволява търговска употреба, но с уговорка за потребителския обем. Докато Llama-2 задава тази граница на 700 милиона активни потребители на месец, прагът на Qwen-7B е 100 милиона.
Тези, които търсят задълбочено изследване, могат да се обърнат към техническия доклад, наличен в GitHub. Освен това, демонстрация на Qwen-7B, предоставен на китайски език, е достъпен за тези, които се интересуват от практическо изследване на възможностите на модела.
Прочетете повече за AI:
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.
Още статииДамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.