FLM-101B: сверхэкономичная языковая модель масштаба 101B, конкурирующая с ведущими моделями искусственного интеллекта
Коротко
Китайский LLM, LM-101B, можно обучить с бюджетом в 100 тысяч долларов, достигнув производительности, сравнимой с такими известными моделями, как GPT-3 и GLM-130B.
Китайские исследователи представили новую программу LLM, FLM-101B, LLM, предназначенный только для декодера и обладающий замечательными 101 миллиардом параметров. Эта разработка представляет собой экономически эффективную альтернативу как для исследований, так и для практического применения.
Что выделяет FLM-101B, так это его исключительные характеристики, достигнутые при относительно скромном бюджете. Хотя общеизвестно, что обучение LLM с нуля может потребовать астрономических инвестиций, создатели FLM-101B показали, что можно обучить модель со 101 миллиардом параметров, используя бюджет всего в 100 тысяч долларов.
Результаты экспериментов просто впечатляют. FLM-101B продемонстрировал уровни производительности, сравнимые с установившимися и ресурсоемкими. такие модели, как GPT-3 и GLM-130B. Это сравнение подчеркивает огромный потенциал этой экономически эффективной модели, особенно в тестах IQ со сложным контекстом, отсутствующим в данных обучения.
Создатели FLM-101B сделали эту модель открытым исходным кодом, подчеркивая свою приверженность развитию исследований и разработок в области искусственного интеллекта. Исследователи и разработчики со всего мира теперь могут получить доступ к этому LLM масштаба 101B и использовать его для различных приложений, охватывающих как китайский, так и английский языки.
В модели FLM-101B используется уникальный подход к обучению. Он быстро накапливает знания из меньшей модели с 16 миллиардами параметров на начальных этапах обучения и постепенно масштабирует до 101 миллиарда параметров. Такой поэтапный подход значительно снижает затраты на обучение, что делает его экономически целесообразным для более широкого круга проектов.
Одной из выдающихся особенностей FLM-101B является поддержка эффективного увеличения размера окна во время вывода. Это достигается за счет использования встраивания поворотных позиций xPos, что позволяет модели обрабатывать более широкий контекст, повышая ее адаптируемость и удобство использования.
FLM-101B был обучен на кластере из 24 серверов с графическим процессором DGX-A800 менее чем за 26 дней. Этот впечатляющий результат подчеркивает масштабируемость модели и эффективное использование ресурсов. База обучающего кода модели, адаптированная из Megatron-LM, скоро будет доступна в открытом доступе, предоставляя ценную информацию для сообщества ИИ.
Создатели FLM-101B признают потенциальные ограничения, в том числе подверженность модели небезопасным примерам в обучающем корпусе из-за открытого характера набора данных. Это предостережение служит напоминанием о важности ответственного использования ИИ и модерация контента.
Хотя FLM-101B добился замечательных результатов, создатели признают, что есть области для улучшения. Процесс вывода модели, хотя и мощный, но еще не полностью оптимизирован, что приводит к более высокому использованию ресурсов и снижению скорости. Тем не менее, в настоящее время разрабатываются планы по внедрению Flash Attention в вывод, чтобы устранить это ограничение.
Подробнее об ИИ:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.