Новостной репортаж Технологии
12 сентября, 2023

FLM-101B: сверхэкономичная языковая модель масштаба 101B, конкурирующая с ведущими моделями искусственного интеллекта

Коротко

Китайский LLM, LM-101B, можно обучить с бюджетом в 100 тысяч долларов, достигнув производительности, сравнимой с такими известными моделями, как GPT-3 и GLM-130B.

Китайские исследователи представили новую программу LLM, FLM-101B, LLM, предназначенный только для декодера и обладающий замечательными 101 миллиардом параметров. Эта разработка представляет собой экономически эффективную альтернативу как для исследований, так и для практического применения.

FLM-101B: сверхэкономичная языковая модель масштаба 101B, конкурирующая с ведущими моделями искусственного интеллекта
Связанный: Ожидается, что к 100 году затраты на обучение моделей искусственного интеллекта вырастут со 500 до 2030 миллионов долларов.

Что выделяет FLM-101B, так это его исключительные характеристики, достигнутые при относительно скромном бюджете. Хотя общеизвестно, что обучение LLM с нуля может потребовать астрономических инвестиций, создатели FLM-101B показали, что можно обучить модель со 101 миллиардом параметров, используя бюджет всего в 100 тысяч долларов.

Результаты экспериментов просто впечатляют. FLM-101B продемонстрировал уровни производительности, сравнимые с установившимися и ресурсоемкими. такие модели, как GPT-3 и GLM-130B. Это сравнение подчеркивает огромный потенциал этой экономически эффективной модели, особенно в тестах IQ со сложным контекстом, отсутствующим в данных обучения.

Создатели FLM-101B сделали эту модель открытым исходным кодом, подчеркивая свою приверженность развитию исследований и разработок в области искусственного интеллекта. Исследователи и разработчики со всего мира теперь могут получить доступ к этому LLM масштаба 101B и использовать его для различных приложений, охватывающих как китайский, так и английский языки.

В модели FLM-101B используется уникальный подход к обучению. Он быстро накапливает знания из меньшей модели с 16 миллиардами параметров на начальных этапах обучения и постепенно масштабирует до 101 миллиарда параметров. Такой поэтапный подход значительно снижает затраты на обучение, что делает его экономически целесообразным для более широкого круга проектов.

Одной из выдающихся особенностей FLM-101B является поддержка эффективного увеличения размера окна во время вывода. Это достигается за счет использования встраивания поворотных позиций xPos, что позволяет модели обрабатывать более широкий контекст, повышая ее адаптируемость и удобство использования.

FLM-101B был обучен на кластере из 24 серверов с графическим процессором DGX-A800 менее чем за 26 дней. Этот впечатляющий результат подчеркивает масштабируемость модели и эффективное использование ресурсов. База обучающего кода модели, адаптированная из Megatron-LM, скоро будет доступна в открытом доступе, предоставляя ценную информацию для сообщества ИИ.

Создатели FLM-101B признают потенциальные ограничения, в том числе подверженность модели небезопасным примерам в обучающем корпусе из-за открытого характера набора данных. Это предостережение служит напоминанием о важности ответственного использования ИИ и модерация контента.

Хотя FLM-101B добился замечательных результатов, создатели признают, что есть области для улучшения. Процесс вывода модели, хотя и мощный, но еще не полностью оптимизирован, что приводит к более высокому использованию ресурсов и снижению скорости. Тем не менее, в настоящее время разрабатываются планы по внедрению Flash Attention в вывод, чтобы устранить это ограничение.

Подробнее об ИИ:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Безумие DOGE: анализ недавнего роста стоимости Dogecoin (DOGE)

Криптовалютная индустрия стремительно расширяется, и мем-монеты готовятся к значительному подъему. Догекоин (DOGE), ...

Узнать больше

Эволюция контента, созданного искусственным интеллектом, в Метавселенной

Появление генеративного ИИ-контента — одно из самых интересных событий в виртуальной среде…

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Scroll завершает обновление основной сети Бернулли и прогнозирует десятикратное снижение транзакционных издержек
Новостной репортаж Технологии
Scroll завершает обновление основной сети Бернулли и прогнозирует десятикратное снижение транзакционных издержек
29 апреля 2024
OKX Jumpstart перечисляет Runecoin и позволяет делать ставки BTC для получения токенов RUNE
Области применения: Новостной репортаж Технологии
OKX Jumpstart перечисляет Runecoin и позволяет делать ставки BTC для получения токенов RUNE
29 апреля 2024
Лучшие предложения этой недели, крупные инвестиции в искусственный интеллект, информационные технологии, Web3и Крипто (22-26.04)
Digest Бизнес Области применения: Технологии
Лучшие предложения этой недели, крупные инвестиции в искусственный интеллект, информационные технологии, Web3и Крипто (22-26.04)
26 апреля 2024
Виталик Бутерин прокомментировал централизацию PoW, отметив, что это был временный этап до PoS
Новостной репортаж Технологии
Виталик Бутерин прокомментировал централизацию PoW, отметив, что это был временный этап до PoS
26 апреля 2024
CRYPTOMERIA LABS PTE. ООО