Новостной репортаж Технологии
01 июня 2023

OpenAI: Новое моделирование вознаграждения под контролем процесса улучшает мышление ИИ

Коротко

OpenAIМоделирование вознаграждения под контролем процесса (PRM) направлено на оценку промежуточных шагов и обоснование моделей ИИ, что приводит к повышению производительности и показателей.

OpenAI еще раз привлекла внимание сообщества ИИ своей новаторской работой в области моделирования вознаграждений с контролируемым процессом (СУРП). Этот инновационный подход направлен на оценку промежуточных шагов и рассуждений моделей ИИ, что приводит к повышению производительности и показателей.

OpenAI: Новое моделирование вознаграждения под контролем процесса улучшает мышление ИИ
Кредит: Metaverse Post (mpost.ио)
Рекомендованные: ChatGPT Может изменить Уолл-стрит, упростив торговлю

В традиционном обучении с подкреплением на основе обратной связи с человеком (РЛХФ), обратная связь модели обычно дается на основе общего результата, полученного моделью. Однако, OpenAIНовое исследование исследует идею оценки отдельных шагов и процессов рассуждений, предпринимаемых моделью. Поступая таким образом, они могут предоставлять более детальные оценки и отзывы.

Чтобы решить эту проблему, OpenAI избранные математические задачи, требующие нескольких действий. Отдельный модель был обучен эффективно оценивать промежуточные шаги, выступая в роли критика для выявления любых ошибочных суждений, сделанных первичной моделью. Этот процесс не только повышает общую производительность, но и улучшает показатели, используемые для оценки возможностей модели.

OpenAI добился значительных успехов в этой области, выпустив тщательно отобранный набор данных, состоящий из 800,000 XNUMX отмеченных суждений. Каждое суждение представляет собой отдельный этап решения математических задач и создавалось вручную. Это подчеркивает уровень самоотверженности и ресурсов OpenAI инвестирует в разработку высококачественных наборов данных, поднимая вопросы об объеме данных, собранных для других областей, таких как программирование или открытые вопросы.

Обучение GPT-4, OpenAIпоследняя итерация GPT сериал уже идет полным ходом. Хотя компонент RLHF не включен в текущие эксперименты, используется чисто языковая модель. Примечательно, OpenAI упоминает, что существует несколько версий GPT-4, причем даже самая маленькая версия требует значительно меньше ресурсов для обучения — примерно в 200 раз меньше.

Интригующим примером поделился OpenAI демонстрирует, как модель оценивает каждый отдельный шаг решения. На снимке экрана, включенном в сообщение, ошибки в решении отмечены флажками и имеют самую низкую оценку правильности, выделенную красным цветом.
Кредит: OpenAI

Интригующим примером поделился OpenAI показывает, как модель оценивает каждый отдельный шаг решения. На снимке экрана, включенном в сообщение, ошибки в решении отмечены флажками и имеют самую низкую оценку правильности, выделенную красным цветом. Эта демонстрация подчеркивает способность модели рассуждать и дает ценную информацию о процессе принятия решений. OpenAI также предоставил инструкции по наценкам, предлагая краудсорсерам возможность внести свой вклад и извлечь выгоду из своей работы.

As OpenAI продолжает раздвигать границы исследований ИИ, их внимание к моделированию и моделированию вознаграждения под контролем процесса открывает новые возможности для расширенных возможностей ИИ. Этот последний прорыв демонстрирует их стремление улучшить характеристики модели и открывает двери для дальнейших достижений в этой области.

Подробнее об ИИ:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Другие статьи
Дамир Ялалов
Дамир Ялалов

Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета. 

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Институциональный аппетит к биткойн-ETF растет на фоне волатильности

Раскрытие информации через отчеты 13F показывает, что известные институциональные инвесторы балуются биткойн-ETF, подчеркивая растущее признание...

Узнать больше

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
Переход Дональда Трампа к криптовалюте: от противника к защитнику и что это значит для рынка криптовалют США
Бизнес Области применения: Истории и обзоры Технологии
Переход Дональда Трампа к криптовалюте: от противника к защитнику и что это значит для рынка криптовалют США
10 мая 2024
Layer3 выпустит токен L3 этим летом, выделив 51% от общего объема поставок сообществу
Области применения: Новостной репортаж Технологии
Layer3 выпустит токен L3 этим летом, выделив 51% от общего объема поставок сообществу
10 мая 2024
Последнее предупреждение Эдварда Сноудена разработчикам биткойнов: «Сделайте конфиденциальность приоритетом на уровне протокола, иначе рискуете ее потерять»
Области применения: Безопасность Wiki Software Истории и обзоры Технологии
Последнее предупреждение Эдварда Сноудена разработчикам биткойнов: «Сделайте конфиденциальность приоритетом на уровне протокола, иначе рискуете ее потерять»
10 мая 2024
Сеть Ethereum Layer 2, основанная на оптимизме, запустит свою основную сеть 15 мая
Новостной репортаж Технологии
Сеть Ethereum Layer 2, основанная на оптимизме, запустит свою основную сеть 15 мая
10 мая 2024
CRYPTOMERIA LABS PTE. ООО