FLM-101B: надекономічна мовна модель у масштабі 101B конкурує з провідними моделями ШІ
Коротко
Китайський LLM, LM-101B, можна навчити з бюджетом у 100 тисяч доларів, досягаючи продуктивності, порівнянної з такими відомими моделями, як GPT-3 і GLM-130B.
Китайські дослідники представили новий LLM, the FLM-101B, LLM лише для декодера, який може похвалитися чудовими 101 мільярдом параметрів. Ця розробка забезпечує економічно ефективну альтернативу як для досліджень, так і для практичного застосування.
За темою: Очікується, що до 100 року витрати на навчання моделі ШІ зростуть зі 500 до 2030 мільйонів доларів |
FLM-101B виділяється винятковою продуктивністю, досягнутою при відносно скромному бюджеті. Хоча добре відомо, що навчання LLM з нуля може вимагати астрономічних інвестицій, розробники FLM-101B показали, що можна навчити модель зі 101 мільярдом параметрів, використовуючи лише бюджет у 100 тисяч доларів.
Результати експерименту не що інше, як вражаючі. FLM-101B продемонстрував рівень продуктивності, порівнянний із встановленим і ресурсомісткий моделі, як GPT-3 і GLM-130B. Це порівняння підкреслює величезний потенціал цієї рентабельної моделі, особливо на тестах IQ зі складними контекстами, відсутніми в навчальних даних.
Творці FLM-101B зробили цю модель з відкритим вихідним кодом, щоб підкреслити свою прихильність розвитку досліджень і розробок ШІ. Дослідники та розробники в усьому світі тепер можуть отримати доступ і використовувати цей LLM-шкал 101B для різних програм, що охоплюють як китайську, так і англійську мови.
Модель FLM-101B використовує унікальний підхід до навчання. Він швидко накопичує знання з меншої моделі з 16 мільярдами параметрів на початкових етапах навчання та поступово масштабує до 101 мільярда параметрів. Цей поетапний підхід значно скорочує витрати на навчання, роблячи його фінансово доцільним для ширшого кола проектів.
Однією з видатних особливостей FLM-101B є підтримка ефективного розширення розміру вікна під час виведення. Це досягається завдяки використанню вбудовування поворотної позиції xPos, що дозволяє моделі обробляти ширший контекст, підвищуючи її адаптивність і зручність використання.
FLM-101B було навчено на кластері з 24 серверів DGX-A800 GPU менш ніж за 26 днів. Це вражаюче досягнення підкреслює масштабованість моделі та ефективне використання ресурсів. База навчального коду моделі, адаптована з Megatron-LM, незабаром буде доступна у відкритому доступі, надаючи цінну інформацію для спільноти ШІ.
Творці FLM-101B визнають потенційні обмеження, зокрема вплив моделі на небезпечні приклади в навчальному корпусі через відкритий характер набору даних. Це застереження служить нагадуванням про важливість відповідального використання ШІ та модерація вмісту.
Незважаючи на те, що FLM-101B досяг чудових результатів, розробники визнають можливості для вдосконалення. Хоча процес висновку моделі є потужним, він ще не повністю оптимізований, що призводить до більшого використання ресурсів і зниження швидкості. Проте планується запровадити Flash Attention у висновках, усунувши це обмеження.
Докладніше про ШІ:
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.
інші статтіДамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.