OpenAI: Новое моделирование вознаграждения под контролем процесса улучшает мышление ИИ
Коротко
OpenAIМоделирование вознаграждения под контролем процесса (PRM) направлено на оценку промежуточных шагов и обоснование моделей ИИ, что приводит к повышению производительности и показателей.
OpenAI еще раз привлекла внимание сообщества ИИ своей новаторской работой в области моделирования вознаграждений с контролируемым процессом (СУРП). Этот инновационный подход направлен на оценку промежуточных шагов и рассуждений моделей ИИ, что приводит к повышению производительности и показателей.
Рекомендованные: ChatGPT Может изменить Уолл-стрит, упростив торговлю |
В традиционном обучении с подкреплением на основе обратной связи с человеком (РЛХФ), обратная связь модели обычно дается на основе общего результата, полученного моделью. Однако, OpenAIНовое исследование исследует идею оценки отдельных шагов и процессов рассуждений, предпринимаемых моделью. Поступая таким образом, они могут предоставлять более детальные оценки и отзывы.
Чтобы решить эту проблему, OpenAI избранные математические задачи, требующие нескольких действий. Отдельный модель был обучен эффективно оценивать промежуточные шаги, выступая в роли критика для выявления любых ошибочных суждений, сделанных первичной моделью. Этот процесс не только повышает общую производительность, но и улучшает показатели, используемые для оценки возможностей модели.
OpenAI добился значительных успехов в этой области, выпустив тщательно отобранный набор данных, состоящий из 800,000 XNUMX отмеченных суждений. Каждое суждение представляет собой отдельный этап решения математических задач и создавалось вручную. Это подчеркивает уровень самоотверженности и ресурсов OpenAI инвестирует в разработку высококачественных наборов данных, поднимая вопросы об объеме данных, собранных для других областей, таких как программирование или открытые вопросы.
Обучение GPT-4, OpenAIпоследняя итерация GPT сериал уже идет полным ходом. Хотя компонент RLHF не включен в текущие эксперименты, используется чисто языковая модель. Примечательно, OpenAI упоминает, что существует несколько версий GPT-4, причем даже самая маленькая версия требует значительно меньше ресурсов для обучения — примерно в 200 раз меньше.
Интригующим примером поделился OpenAI показывает, как модель оценивает каждый отдельный шаг решения. На снимке экрана, включенном в сообщение, ошибки в решении отмечены флажками и имеют самую низкую оценку правильности, выделенную красным цветом. Эта демонстрация подчеркивает способность модели рассуждать и дает ценную информацию о процессе принятия решений. OpenAI также предоставил инструкции по наценкам, предлагая краудсорсерам возможность внести свой вклад и извлечь выгоду из своей работы.
As OpenAI продолжает раздвигать границы исследований ИИ, их внимание к моделированию и моделированию вознаграждения под контролем процесса открывает новые возможности для расширенных возможностей ИИ. Этот последний прорыв демонстрирует их стремление улучшить характеристики модели и открывает двери для дальнейших достижений в этой области.
- В последнее время Сообщается, что Apple ограничивает использование сотрудниками ChatGPT и другие чат-боты с искусственным интеллектом из соображений конфиденциальности. The Wall Street Journal сообщил, что работникам также запрещено использовать инструмент искусственного интеллекта GitHub Copilot, который позволяет пользователям автоматически писать программный код. ChatGPT — это чат-бот с искусственным интеллектом, разработанный OpenAI, который подвергся критике за нарушение конфиденциальности.
Подробнее об ИИ:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.