Звіт про новини Технологія
Вересень 12, 2023

FLM-101B: надекономічна мовна модель у масштабі 101B конкурує з провідними моделями ШІ

Коротко

Китайський LLM, LM-101B, можна навчити з бюджетом у 100 тисяч доларів, досягаючи продуктивності, порівнянної з такими відомими моделями, як GPT-3 і GLM-130B.

Китайські дослідники представили новий LLM, the FLM-101B, LLM лише для декодера, який може похвалитися чудовими 101 мільярдом параметрів. Ця розробка забезпечує економічно ефективну альтернативу як для досліджень, так і для практичного застосування.

FLM-101B: надзвичайно економічно ефективна мовна модель у масштабі 101B конкурує з провідними моделями ШІ
За темою: Очікується, що до 100 року витрати на навчання моделі ШІ зростуть зі 500 до 2030 мільйонів доларів

FLM-101B виділяється винятковою продуктивністю, досягнутою при відносно скромному бюджеті. Хоча добре відомо, що навчання LLM з нуля може вимагати астрономічних інвестицій, розробники FLM-101B показали, що можна навчити модель зі 101 мільярдом параметрів, використовуючи лише бюджет у 100 тисяч доларів.

Результати експерименту не що інше, як вражаючі. FLM-101B продемонстрував рівень продуктивності, порівнянний із встановленим і ресурсомісткий моделі, як GPT-3 і GLM-130B. Це порівняння підкреслює величезний потенціал цієї рентабельної моделі, особливо на тестах IQ зі складними контекстами, відсутніми в навчальних даних.

Творці FLM-101B зробили цю модель з відкритим вихідним кодом, щоб підкреслити свою прихильність розвитку досліджень і розробок ШІ. Дослідники та розробники в усьому світі тепер можуть отримати доступ і використовувати цей LLM-шкал 101B для різних програм, що охоплюють як китайську, так і англійську мови.

Модель FLM-101B використовує унікальний підхід до навчання. Він швидко накопичує знання з меншої моделі з 16 мільярдами параметрів на початкових етапах навчання та поступово масштабує до 101 мільярда параметрів. Цей поетапний підхід значно скорочує витрати на навчання, роблячи його фінансово доцільним для ширшого кола проектів.

Однією з видатних особливостей FLM-101B є підтримка ефективного розширення розміру вікна під час виведення. Це досягається завдяки використанню вбудовування поворотної позиції xPos, що дозволяє моделі обробляти ширший контекст, підвищуючи її адаптивність і зручність використання.

FLM-101B було навчено на кластері з 24 серверів DGX-A800 GPU менш ніж за 26 днів. Це вражаюче досягнення підкреслює масштабованість моделі та ефективне використання ресурсів. База навчального коду моделі, адаптована з Megatron-LM, незабаром буде доступна у відкритому доступі, надаючи цінну інформацію для спільноти ШІ.

Творці FLM-101B визнають потенційні обмеження, зокрема вплив моделі на небезпечні приклади в навчальному корпусі через відкритий характер набору даних. Це застереження служить нагадуванням про важливість відповідального використання ШІ та модерація вмісту.

Незважаючи на те, що FLM-101B досяг чудових результатів, розробники визнають можливості для вдосконалення. Хоча процес висновку моделі є потужним, він ще не повністю оптимізований, що призводить до більшого використання ресурсів і зниження швидкості. Проте планується запровадити Flash Attention у висновках, усунувши це обмеження.

Докладніше про ШІ:

Ключові слова:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Інституційний апетит зростає до біткойн ETF на тлі волатильності

Розкриття інформації через документи 13F свідчить про те, що відомі інституційні інвестори займаються біткойн ETF, підкреслюючи зростаюче визнання ...

Дізнайтеся більше

Настав день винесення вироку: суд США розглядає прохання Міністерства юстиції щодо долі CZ.

Changpeng Zhao готовий зіткнутися з вироком у американському суді в Сіетлі сьогодні.

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Nexo розпочинає «полювання», щоб винагородити користувачів 12 мільйонами доларів у токенах NEXO за взаємодію з її екосистемою
ринки Звіт про новини Технологія
Nexo розпочинає «полювання», щоб винагородити користувачів 12 мільйонами доларів у токенах NEXO за взаємодію з її екосистемою
Травень 8, 2024
Біржа Revolut X від Revolut залучає криптовалютних трейдерів із нульовою комісією та розширеною аналітикою
ринки Софтвер Розповіді та огляди Технологія
Біржа Revolut X від Revolut залучає криптовалютних трейдерів із нульовою комісією та розширеною аналітикою
Травень 8, 2024
Криптова торгова платформа BitMEX дебютує з торгівлею опціонами з нульовими комісіями та грошовими стимулами
Business ринки Звіт про новини
Криптова торгова платформа BitMEX дебютує з торгівлею опціонами з нульовими комісіями та грошовими стимулами
Травень 8, 2024
Lisk офіційно переходить на Ethereum Layer 2 і представляє Core v4.0.6
Звіт про новини Технологія
Lisk офіційно переходить на Ethereum Layer 2 і представляє Core v4.0.6
Травень 8, 2024
CRYPTOMERIA LABS PTE. LTD.