Alibaba представляет языковую модель Qwen-7B с открытым исходным кодом
Alibaba представила свою модель большого языка (LLM) с открытым исходным кодом под названием Квен-7Б, отмечая их первый вход в сферу общедоступных LLM. Эта модель построена на 7 миллиардах параметров.
Для сравнения: Qwen-7B прошел обучение с использованием 2.2 триллиона токенов. Размер контекста, установленный на этом этапе обучения, составлял 2048, а во время тестирования пользователи могут увеличить его максимум до 8192. По сравнению, Llama-2, еще один LLM, предлагает размер контекста 4096.
Тесты необходимы для оценки производительности таких моделей, и в этой области китайские разработчики утверждают, что Qwen-7B превзошел Llama-2. Одним из показателей, который выделяется, является тест кодирования Human-Eval, где Qwen-7B набрал 24.4 балла по сравнению с Llama-2 12.8. Однако к этим цифрам следует относиться с определенной осторожностью. Некоторые тесты показывают, что Qwen-7B превосходит не только базовую модель LLama-2-7B, но и LLaMAВариант -2-13Б. Однако, если сравнивать их с усовершенствованными версиями Llama-2, разница становится уже. Следует отметить, что точная методика обучения Qwen-7B не была подробно описана его разработчиками.
По функционалу параллельно LLaMa2-chat, Qwen представила ориентированную на чат версию под названием Qwen-7B-Chat. Эта модель оптимизирована для взаимодействия с пользователями и включает в себя различные инструменты и API для повышения его отзывчивости.
Любителям технических подробностей будет интересно узнать, что архитектурный фундамент Qwen-7B имеет сходство с LLaMA. Однако есть отличительные особенности, отличающие Qwen-7B:
- Он использует несвязанное вложение.
- Используется поворотное позиционное встраивание.
- Перекосы исключены, за исключением ККВ во внимании.
- RMSNorm предпочтительнее LayerNorm.
- Вместо стандартного ReLU включен SwiGLU.
- Введено мгновенное внимание для ускорения процесса обучения.
- Модель состоит из 32 слоев, имеет размер встраивания 4096 и вмещает 32 головы внимания.
С точки зрения лицензирования Qwen-7B соответствует Llama-2. Он разрешает коммерческое использование, но с условием количества пользователей. Пока Llama-2 устанавливает этот предел на уровне 700 миллионов активных пользователей в месяц, порог Qwen-7B — 100 миллионов.
Те, кто хочет более глубокого изучения, могут обратиться к техническому отчету, доступному на GitHub. Кроме того, демонстрация Qwen-7B, представленный на китайском языке, доступен для тех, кто заинтересован в практическом изучении возможностей модели.
Подробнее об ИИ:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.