пазари Новини
Август 08, 2023

Alibaba представя Qwen-7B езиков модел с отворен код

Alibaba представи своя голям езиков модел (LLM) с отворен код на име Qwen-7B, отбелязвайки първото им влизане в сферата на публично достъпните LLMs. Този модел е изграден върху 7 милиарда параметъра.

Alibaba представя Qwen-7B езиков модел с отворен код

За контекст, Qwen-7B премина обучение с помощта на 2.2 трилиона токена. Размерът на контекста, зададен по време на тази фаза на обучение, беше 2048, докато потребителите могат да го разширят до максимум 8192 по време на тестване. За сравнение, Llama-2, друг LLM, предлага размер на контекста от 4096.

Бенчмарковете са от съществено значение за измерване на производителността на такива модели и в тази област китайските разработчици твърдят, че Qwen-7B е надминал Llama-2. Един показател, който се откроява, е бенчмаркът за кодиране Human-Eval, където Qwen-7B отбелязва 24.4 срещу Llama-2 е 12.8. Въпреки това е разумно тези числа да се разглеждат с известна предпазливост. Някои бенчмаркове показват, че Qwen-7B превъзхожда не само базовия модел на LLama-2-7B, но също и LLaMA-2-13B вариант. Въпреки това, когато се изправи срещу усъвършенстваните версии на Llama-2, границата на разликата става по-тясна. Трябва да се отбележи, че точната методология на обучение на Qwen-7B не е изрично описана от разработчиците.

По функционалност, успоредна на LLaMa2-чат, Qwen представи ориентирана към чат версия, наречена Qwen-7B-Chat. Този модел е оптимизиран за взаимодействие с потребителите и включва различни инструменти и APIs за да подобри неговата отзивчивост.

Тези, които имат склонност към технически специфики, ще се интересуват да знаят, че архитектурната основа на Qwen-7B прилича на LLaMA. Има обаче различни характеристики, които отличават Qwen-7B:

  1. Той използва необвързано вграждане.
  2. Използва се ротационно позиционно вграждане.
  3. Пристрастията са изключени, с изключение на QKV във вниманието.
  4. RMSNorm е предпочитан пред LayerNorm.
  5. Вместо стандартния ReLU е включен SwiGLU.
  6. Въведено е бързо внимание за ускоряване на тренировъчния процес.
  7. Моделът се състои от 32 слоя, има размер на вграждане 4096 и побира 32 глави за внимание.

По отношение на лицензирането, Qwen-7B се привежда в съответствие с Llama-2. Позволява търговска употреба, но с уговорка за потребителския обем. Докато Llama-2 задава тази граница на 700 милиона активни потребители на месец, прагът на Qwen-7B е 100 милиона.

Тези, които търсят задълбочено изследване, могат да се обърнат към техническия доклад, наличен в GitHub. Освен това, демонстрация на Qwen-7B, предоставен на китайски език, е достъпен за тези, които се интересуват от практическо изследване на възможностите на модела.

Прочетете повече за AI:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Още статии
Дамир Ялалов
Дамир Ялалов

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Hot Stories

Открийте Crypto Whales: Кой кой е на пазара

by Виктория Палчик
Май 07, 2024
Присъединете се към нашия бюлетин.
Последни новини

Институционалният апетит нараства към биткойн ETF на фона на волатилност

Оповестяванията чрез документи 13F разкриват забележителни институционални инвеститори, занимаващи се с биткойн ETF, което подчертава нарастващото приемане на...

Научете още

Пристига денят на присъдата: Съдбата на CZ виси на равновесие, докато американският съд разглежда молбата на DOJ

Changpeng Zhao е готов да бъде осъден днес в американски съд в Сиатъл.

Научете още
Присъединете се към нашата иновативна техническа общност
Вижте повече
Прочети повече
Inside Wall Street Memes (WSM): Разкриване на заглавията
Бизнес пазари Истории и рецензии Технологии
Inside Wall Street Memes (WSM): Разкриване на заглавията
Май 7, 2024
Открийте Crypto Whales: Кой кой е на пазара
Бизнес пазари Истории и рецензии Технологии
Открийте Crypto Whales: Кой кой е на пазара
Май 7, 2024
Orbiter Finance си партнира с Bitcoin Layer 2 Zulu Network и се внедрява в Is Lwazi Testnet
Бизнес Новини Технологии
Orbiter Finance си партнира с Bitcoin Layer 2 Zulu Network и се внедрява в Is Lwazi Testnet 
Май 7, 2024
Crypto Exchange Bybit интегрира USDe на Ethena Labs като обезпечителен актив, позволява двойки за търговия на BTC-USDe и ETH-USDe
пазари Новини Технологии
Crypto Exchange Bybit интегрира USDe на Ethena Labs като обезпечителен актив, позволява двойки за търговия на BTC-USDe и ETH-USDe
Май 7, 2024
CRYPTOMERIA LABS PTE. LTD.