Alibaba представляє мовну модель Qwen-7B з відкритим кодом
Alibaba представила свою модель великої мови (LLM) з відкритим кодом Qwen-7B, що відзначає їх перший вступ у сферу загальнодоступних LLM. Ця модель побудована на 7 мільярдах параметрів.
Для контексту Qwen-7B пройшов навчання з використанням 2.2 трильйона токенів. Розмір контексту, встановлений під час цієї фази навчання, становив 2048, а під час тестування користувачі можуть збільшити його до максимуму 8192. Для порівняння, Llama-2, інший LLM, пропонує розмір контексту 4096.
Тести є важливими для вимірювання продуктивності таких моделей, і в цій області китайські розробники стверджують, що Qwen-7B перевершив Llama-2. Одним із показників, який виділяється, є тест кодування Human-Eval, де Qwen-7B має 24.4 бала проти Llama-2 12.8. Однак доцільно дивитися на ці цифри з певною обережністю. Деякі тести показують, що Qwen-7B перевершує не лише базову модель LLama-2-7B, але також LLaMA-2-13Б варіант. Однак, коли протистояти вдосконаленим версіям Llama-2, межа різниці стає вужчою. Слід зазначити, що точна методологія навчання Qwen-7B не була чітко деталізована його розробниками.
За функціональністю паралельно LLaMa2-чат, компанія Qwen представила орієнтовану на чат версію під назвою Qwen-7B-Chat. Ця модель оптимізована для взаємодії з користувачами та містить різні інструменти та Інтерфейси щоб підвищити його чуйність.
Тим, хто схильний до технічної специфіки, буде цікаво дізнатися, що архітектурна основа Qwen-7B схожа на LLaMA. Однак є відмінні риси, які відрізняють Qwen-7B:
- Він використовує незв'язане вбудовування.
- Використовується поворотне позиційне вбудовування.
- Упередження виключені, за винятком QKV у увазі.
- RMSNorm має перевагу над LayerNorm.
- Замість стандартного ReLU включено SwiGLU.
- Для прискорення тренувального процесу введено швидку увагу.
- Модель складається з 32 шарів, має розмір вбудовування 4096 і вміщує 32 головки уваги.
З точки зору ліцензування, Qwen-7B узгоджується з Llama-2. Він дозволяє комерційне використання, але з умовою щодо кількості користувачів. Поки Llama-2 встановлює це обмеження на рівні 700 мільйонів активних користувачів на місяць, поріг Qwen-7B становить 100 мільйонів.
Ті, хто бажає поглибленого вивчення, можуть звернутися до технічного звіту, доступного на GitHub. Крім того, демонстрація Qwen-7B, наданий китайською мовою, доступний для тих, хто зацікавлений у практичному дослідженні можливостей моделі.
Докладніше про ШІ:
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.
інші статтіДамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.