StabilityAI и CarperAI Lab представляют LLM FreeWilly с открытым исходным кодом и расширенными возможностями рассуждений
StabilityAI и команда CarperAI представила две новые модели больших языков (LLM) с открытым исходным кодом, названные FreeWilly1 и FreeWilly2. Эти модели выделяются среди LLM благодаря расширенным возможностям рассуждений.
FreeWilly1 построен на LLaMA 65B и подверглась тонкой настройке с использованием синтетически сгенерированного набора данных. FreeWilly2 построен на LLaMA 2 70B и демонстрирует производительность, сравнимую с GPT-3.5 для определенных задач. На методологии обучения для этих моделей повлияли исследование Майкрософт, как подробно описано в их статье под названием «Косатка: прогрессивное обучение на основе сложных объяснений следов GPT-4". Stability AIподход заключался в подсказке языковых моделей с помощью высококачественных инструкций для создания набора данных, содержащего 600,000 10 точек данных. Размер этого набора данных составляет примерно XNUMX% от того, что использовалось в первоначальном исследовании Orca. Несмотря на уменьшенный размер набора данных, модели FreeWilly продемонстрировали исключительную производительность в различных тестах.
Процесс генерации данных включал создание 500,000 XNUMX случаев с использованием менее сложного LLM модель и еще 100,000 XNUMX случаев с более сложной моделью LLM. Чтобы обеспечить достоверность сравнений, наборы данных были тщательно проверены, чтобы исключить случаи, возникшие из контрольных показателей оценки. Эффективность этого синтетически сгенерированного набора данных очевидна в производительности моделей FreeWilly, даже несмотря на то, что они были обучены на наборе данных, который в десять раз меньше размера исходной бумаги Orca.
Для оценки этих моделей исследователи использовали ЭлеутерАИ, дополненный AGIEval. Полученные данные показывают, что обе модели FreeWilly преуспевают в решении сложных задач в специализированных областях, таких как право и математика. Они также демонстрируют сложные рассуждения и тонкое понимание языковых нюансов. Команда CarperAI с оптимизмом смотрит на потенциал этих моделей для улучшения нашего понимания разговорной речи и с нетерпением ждет их инновационных приложений в области искусственного интеллекта.
Для всестороннего понимания FreeWilly1 и FreeWilly2, Справочная статья и страница проекта предоставить подробную информацию.
LLaMa-2: Новая эра языковых моделей общественного достояния
LLaMa-2 выступает в качестве премьера языковая модель Сегодня они находятся в открытом доступе, открывая путь для дальнейшего развития и внедрения моделей больших языков (LLM) в различных продуктах. Его предшественник, LLaMa-1 заложила основу, вдохновив на многочисленные впечатляющие проекты. С введением LLaMa-2, перспективы использования в разнообразных приложениях еще больше, особенно с учетом его предоставления в бесплатное коммерческое использование.
В недавнем диалоге с BBC, Ник Клегг, видная фигура из Meta, обсудил решение о выпуске LLM с открытым исходным кодом. По словам Клегга, такой шаг повышает безопасность этих моделей, прежде всего потому, что он облегчает углубленное исследование и анализ со стороны внешних сущностей.
Некоторые ключевые наблюдения Клегга включают:
- LLaMa-2 устанавливает новый стандарт безопасности среди моделей с открытым исходным кодом. Это утверждение находит поддержку в тестах, упомянутых в связанной статье.
- Решение проблем о потенциальных экзистенциальных угрозах, исходящих от ИИ, Клегг считает, что дискурс может немного опережать реальные технологические возможности. Он подчеркнул, что большинство опасений связано с гипотетическими сверхпродвинутыми моделями ИИ — теми, которые обладают беспрецедентным интеллектом, автономией и способностями к самовоспроизведению. В противоположность этому, Клегг описал модели с открытым исходным кодом из Метав том числе LLaMa-2, как заметно рудиментарный.
- Хотя он твердо верит в регулирование ИИ, Клегг подчеркнул, что не обязательно, чтобы каждая модель ИИ была с открытым исходным кодом.
Приверженность Meta прозрачности и вкладу в более широкое сообщество очевидна в их десятилетнем послужном списке. За последние десять лет компания предоставила для общего пользования более 1000 моделей, библиотек и наборов данных. Известные выпуски включают React, PyTorch и более поздние версии.Сегментировать что угодно' модель.
- В последнее время Мета выпустила LLaMa-2-чат модели, значительный прорыв в области искусственного интеллекта с открытым исходным кодом. Эти модели с 70 миллиардами параметров сравнимы с GPT-3.5 и превосходят контрольные показатели. Они настроены с использованием RLHF (обучение с подкреплением на основе обратной связи с человеком) и предлагают персонализированные возможности. ChatGPT эквиваленты, показатели человеческой оценки и возможности решения математических задач. Эта модель является первой моделью такого размера, которая была доработана с использованием RLHF, что делает ее еще более заметной. Meta сделала эту модель полностью бесплатной для коммерческого использования. Одно существенное преимущество LLaMa-2-Чат – это его потенциал для создания ChatGPT аналоги без обмена какими-либо данными с OpenAI, что позволяет разработчикам и исследователям использовать возможности модели, сохраняя при этом полный контроль над своими данными.
Подробнее об ИИ:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.