Новостной репортаж Технологии
05 апреля 2023

8 вещей, которые вы должны знать о больших языковых моделях

Коротко

Большие языковые модели (LLM) используются для изучения нюансов естественного языка, улучшения способности машин понимать и генерировать текст, а также автоматизировать такие задачи, как распознавание голоса и машинный перевод.

Не существует простого решения для управления LLM, но они так же способны, как и люди.

С ростом развития обработки естественного языка и ее использования в бизнесе растет интерес к большим языковым моделям. Эти модели используются для изучения нюансов естественного языка, улучшения способности машин понимать и генерировать текст и автоматизировать такие задачи, как распознавание голоса и машинный перевод. Вот восемь важных вещей, которые вы должны знать о больших языковых моделях (LLM).

10 вещей, которые вы должны знать о больших языковых моделях
@Midjourney / Така#4076

LLM более «способны», поскольку затраты продолжают расти

LLM предсказуемо становятся более «способными» с ростом затрат, даже без крутых инноваций. Здесь главное предсказуемость, что и было показано в статье про GPT-4: обучалось пять-семь маленьких моделей с бюджетом 0.1% от итоговой, а затем на основе этого делался прогноз для огромной модели. Для общей оценки недоумения и метрик на подвыборке одной конкретной задачи такой прогноз оказался очень точным. Эта предсказуемость важна для предприятий и организаций, которые полагаются на LLM в своей деятельности, поскольку они могут соответствующим образом составлять бюджет и планировать будущие расходы. Тем не менее, важно отметить, что, хотя увеличение затрат может привести к улучшению возможностей, скорость улучшения может в конечном итоге стабилизироваться, что делает необходимым вложение средств в новые инновации для продолжения развития.

Быстрый взгляд на то, как GPT модели адаптируются по мере роста затрат на обучение

Однако конкретные важные навыки, как правило, возникают непредсказуемо как побочный продукт повышения квалификации. расходы на обучение (более длительное обучение, больше данных, большая модель) — почти невозможно предсказать, когда модели начнут выполнять те или иные задачи. Мы более подробно изучили эту тему в нашей гайд об истории развития GPT модели. На картинке показано распределение прироста качества моделей по разным задачам. Только большие модели могут научиться выполнять различные задачи. Этот график подчеркивает значительное влияние увеличения размера GPT Модели на их эффективность в различных задачах. Однако важно отметить, что это происходит за счет увеличения вычислительных ресурсов и воздействия на окружающую среду.

Быстрый взгляд на то, как GPT модели адаптируются по мере роста затрат на обучение

LLM учатся играть в настольные игры, используя представления внешнего мира.

LLM часто изучают и используют представления внешнего мира. Примеров здесь много, и вот один из них: Модели обучены играть в настольные игры по описаниям отдельных ходов, даже не видя картины игрового поля, изучать внутренние представления о состоянии доски при каждом ходе. Эти внутренние представления затем можно использовать для предсказывать будущее ходы и исходы, что позволяет модели играть в игру на высоком уровне. Эта способность изучать и использовать представления является ключевой аспект машинного обучения и искусственный интеллект.

Нет простого решения для управления LLM

Не существует надежных методов управления поведением LLM. Хотя был достигнут некоторый прогресс в понимании и смягчении различных проблем (включая ChatGPT и GPT-4 с помощью обратной связи), нет единого мнения, сможем ли мы их решить. Растет обеспокоенность, что в будущем, когда будут созданы еще более крупные системы, это станет огромной, потенциально катастрофической проблемой. Поэтому исследователи изучают новые методы, позволяющие обеспечить соответствие систем ИИ человеческим ценностям и целям, такие как согласование ценностей и разработка вознаграждений. Однако остается сложной задачей гарантировать безопасность и надежность LLM в сложных реальных сценариях.

Прочитайте больше: OpenAI Собирает команду из 50+ экспертов для улучшения GPT-4безопасность

Эксперты не могут объяснить, как работает LLM

Эксперты пока не могут интерпретировать внутреннюю работу LLM. Никакая техника не позволила бы нам каким-либо удовлетворительным образом установить, какие виды знаний, рассуждений или целей использует модель, когда она генерирует какой-либо результат. Это отсутствие интерпретируемости вызывает опасения по поводу надежности и справедливости решений LLM, особенно в приложениях с высокими ставками, таких как уголовное правосудие или кредитный скоринг. Это также подчеркивает необходимость дальнейших исследований по разработке более прозрачных и подотчетных моделей ИИ.

LLM так же способны, как и люди

Хотя LLM обучаются в первую очередь имитировать поведение человека при написании текста, у них есть потенциал превзойти нас во многих задачах. Это можно увидеть уже при игре в шахматы или Го. Это связано с их способностью анализировать огромные объемы данных и принимать решения на основе этого анализа со скоростью, с которой люди не могут сравниться. Однако магистрантам по-прежнему не хватает креативности и интуиции, которыми обладают люди, что делает их менее подходящими для многих задач.

Прочитайте больше: OpenAI Собирает команду из 50+ экспертов для улучшения GPT-4безопасность

LLM должны быть больше, чем просто «мастерами на все руки»

LLM не должны выражать ценности своих создателей или ценности, закодированные в выборе из Интернета. Они не должны повторять стереотипы или теории заговора или пытаться кого-либо оскорбить. Вместо этого LLM должны быть разработаны таким образом, чтобы предоставлять беспристрастную и фактическую информацию своим пользователям, уважая при этом культурные и социальные различия. Кроме того, они должны проходить регулярные испытания и мониторинг, чтобы убедиться, что они продолжают соответствовать этим стандартам.

Модели «умнее», чем думают люди, основываясь на первых впечатлениях

Оценки способностей модели, основанные на первых впечатлениях, часто вводят в заблуждение. Очень часто нужно придумать правильную подсказку, предложить модель, а может и показать примеры, и она начнет справляться намного лучше. То есть он «умнее», чем кажется на первый взгляд. Поэтому крайне важно дать модели шанс и предоставить ей необходимые ресурсы для достижения наилучших результатов. При правильном подходе даже кажущиеся неадекватными модели могут удивить нас своими возможностями.

Если ориентироваться на выборку из 202 задач из датасета BIG-Bench (ее специально усложнили для тестирования языковые модели от и до), то как правило (в среднем) модели показывают рост качества с увеличением масштаба, но индивидуально метрики в задачах могут:

  • улучшать постепенно,
  • резко улучшить,
  • оставаться без изменений,
  • уменьшение,
  • не показывают корреляции.

Все это приводит к невозможности уверенно экстраполировать производительность любой будущей системы. Особенно интересна зеленая часть — именно здесь показатели качества резко подскакивают ни с того ни с сего.

Подробнее об ИИ:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Институциональный аппетит к биткойн-ETF растет на фоне волатильности

Раскрытие информации через отчеты 13F показывает, что известные институциональные инвесторы балуются биткойн-ETF, подчеркивая растущее признание...

Узнать больше

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Orbiter Finance сотрудничает с сетью Zulu Bitcoin Layer 2 и развертывает ее в тестовой сети Is Lwazi
Бизнес Новостной репортаж Технологии
Orbiter Finance сотрудничает с сетью Zulu Bitcoin Layer 2 и развертывает ее в тестовой сети Is Lwazi 
7 мая 2024
Криптовалютная биржа Bybit интегрирует доллары США Ethena Labs в качестве залогового актива и позволяет использовать торговые пары BTC-USDe и ETH-USDe
Области применения: Новостной репортаж Технологии
Криптовалютная биржа Bybit интегрирует доллары США Ethena Labs в качестве залогового актива и позволяет использовать торговые пары BTC-USDe и ETH-USDe
7 мая 2024
Кошелек Bitget представляет GetDrop Airdrop Платформа запускает первое мероприятие Meme Coin с призовым фондом в 130,000 XNUMX долларов США
Области применения: Новостной репортаж Технологии
Кошелек Bitget представляет GetDrop Airdrop Платформа запускает первое мероприятие Meme Coin с призовым фондом в 130,000 XNUMX долларов США
7 мая 2024
От простого рефлекса к обучающимся агентам: ознакомьтесь с различными типами агентов ИИ и их ролью в современных приложениях
Образ жизни Software Истории и обзоры Технологии
От простого рефлекса к обучающимся агентам: ознакомьтесь с различными типами агентов ИИ и их ролью в современных приложениях
7 мая 2024
CRYPTOMERIA LABS PTE. ООО