Области применения: Новостной репортаж
08 августа 2023

Alibaba представляет языковую модель Qwen-7B с открытым исходным кодом

Alibaba представила свою модель большого языка (LLM) с открытым исходным кодом под названием Квен-7Б, отмечая их первый вход в сферу общедоступных LLM. Эта модель построена на 7 миллиардах параметров.

Alibaba представляет языковую модель Qwen-7B с открытым исходным кодом

Для сравнения: Qwen-7B прошел обучение с использованием 2.2 триллиона токенов. Размер контекста, установленный на этом этапе обучения, составлял 2048, а во время тестирования пользователи могут увеличить его максимум до 8192. По сравнению, Llama-2, еще один LLM, предлагает размер контекста 4096.

Тесты необходимы для оценки производительности таких моделей, и в этой области китайские разработчики утверждают, что Qwen-7B превзошел Llama-2. Одним из показателей, который выделяется, является тест кодирования Human-Eval, где Qwen-7B набрал 24.4 балла по сравнению с Llama-2 12.8. Однако к этим цифрам следует относиться с определенной осторожностью. Некоторые тесты показывают, что Qwen-7B превосходит не только базовую модель LLama-2-7B, но и LLaMAВариант -2-13Б. Однако, если сравнивать их с усовершенствованными версиями Llama-2, разница становится уже. Следует отметить, что точная методика обучения Qwen-7B не была подробно описана его разработчиками.

По функционалу параллельно LLaMa2-chat, Qwen представила ориентированную на чат версию под названием Qwen-7B-Chat. Эта модель оптимизирована для взаимодействия с пользователями и включает в себя различные инструменты и API для повышения его отзывчивости.

Любителям технических подробностей будет интересно узнать, что архитектурный фундамент Qwen-7B имеет сходство с LLaMA. Однако есть отличительные особенности, отличающие Qwen-7B:

  1. Он использует несвязанное вложение.
  2. Используется поворотное позиционное встраивание.
  3. Перекосы исключены, за исключением ККВ во внимании.
  4. RMSNorm предпочтительнее LayerNorm.
  5. Вместо стандартного ReLU включен SwiGLU.
  6. Введено мгновенное внимание для ускорения процесса обучения.
  7. Модель состоит из 32 слоев, имеет размер встраивания 4096 и вмещает 32 головы внимания.

С точки зрения лицензирования Qwen-7B соответствует Llama-2. Он разрешает коммерческое использование, но с условием количества пользователей. Пока Llama-2 устанавливает этот предел на уровне 700 миллионов активных пользователей в месяц, порог Qwen-7B — 100 миллионов.

Те, кто хочет более глубокого изучения, могут обратиться к техническому отчету, доступному на GitHub. Кроме того, демонстрация Qwen-7B, представленный на китайском языке, доступен для тех, кто заинтересован в практическом изучении возможностей модели.

Подробнее об ИИ:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Институциональный аппетит к биткойн-ETF растет на фоне волатильности

Раскрытие информации через отчеты 13F показывает, что известные институциональные инвесторы балуются биткойн-ETF, подчеркивая растущее признание...

Узнать больше

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Nexo начинает «охоту», чтобы вознаградить пользователей токенами NEXO на сумму 12 миллионов долларов за взаимодействие с ее экосистемой
Области применения: Новостной репортаж Технологии
Nexo начинает «охоту», чтобы вознаградить пользователей токенами NEXO на сумму 12 миллионов долларов за взаимодействие с ее экосистемой
8 мая 2024
Биржа Revolut X Revolut привлекает криптотрейдеров нулевой комиссией производителя и расширенной аналитикой
Области применения: Software Истории и обзоры Технологии
Биржа Revolut X Revolut привлекает криптотрейдеров нулевой комиссией производителя и расширенной аналитикой
8 мая 2024
Криптовалютная торговая платформа BitMEX представляет торговлю опционами с нулевой комиссией и денежными стимулами
Бизнес Области применения: Новостной репортаж
Криптовалютная торговая платформа BitMEX представляет торговлю опционами с нулевой комиссией и денежными стимулами
8 мая 2024
Lisk официально переходит на Ethereum Layer 2 и представляет ядро ​​v4.0.6
Новостной репортаж Технологии
Lisk официально переходит на Ethereum Layer 2 и представляет ядро ​​v4.0.6
8 мая 2024
CRYPTOMERIA LABS PTE. ООО