Звіт про новини Технологія
01 Червня, 2023.

OpenAI: Нове моделювання винагороди під контролем процесу покращує міркування ШІ

Коротко

OpenAIПроцесно-контрольоване моделювання винагороди (PRM) спрямоване на оцінку проміжних кроків і обґрунтування моделей ШІ, що призводить до покращення продуктивності та показників.

OpenAI знову привернули увагу спільноти штучного інтелекту своєю новаторською роботою в моделюванні винагороди за процесом (PRM). Цей інноваційний підхід спрямований на оцінку проміжних кроків і обґрунтування моделей ШІ, що призводить до покращення продуктивності та показників.

OpenAI: Нове моделювання винагороди під контролем процесу покращує міркування ШІ
Кредит: Metaverse Post (mpost.io)
Рекомендовані: ChatGPT Може змінити Уолл-стріт, спростивши торгівлю

У традиційному навчанні з підкріпленням за допомогою зворотного зв’язку людини (RLHF), зворотній зв’язок моделі зазвичай надається на основі загального результату, створеного моделлю. однак, OpenAIНове дослідження досліджує ідею оцінки окремих кроків і процесів міркування, які здійснює модель. Роблячи це, вони можуть надавати більш детальні оцінки та відгуки.

Щоб вирішити цю проблему, OpenAI вибрані математичні задачі, які вимагали кількох дій. Окремий модель був навчений ефективно оцінювати проміжні кроки, діючи як критик, щоб виявити будь-які помилкові судження, зроблені первинною моделлю. Цей процес не тільки покращує загальну продуктивність, але й покращує показники, які використовуються для оцінки можливостей моделі.

OpenAI досягла значних успіхів у цій галузі, випустивши ретельно підібраний набір даних, що складається з 800,000 XNUMX позначених суджень. Кожне судження є окремим етапом вирішення математичних задач і створене вручну. Це підкреслює рівень відданості та ресурсів OpenAI інвестує в розробку високоякісних наборів даних, піднімаючи питання щодо обсягу даних, зібраних для інших областей, таких як програмування або відкриті запитання.

Навчання GPT-4, OpenAIостання версія GPT серія, вже йде повним ходом. Хоча компонент RLHF не включено в поточні експерименти, використовується чиста мовна модель. Зокрема, OpenAI згадується, що існує кілька версій GPT-4, при цьому навіть найменша версія потребує значно менше ресурсів для навчання — приблизно у 200 разів менше.

Інтригуючим прикладом поділився OpenAI демонструє, як модель оцінює кожен окремий крок прийняття рішення. На скріншоті, включеному до публікації, помилки у розв’язанні позначено прапорцями та надано найнижчу оцінку правильності, виділену червоним.
Кредит: OpenAI

Інтригуючим прикладом поділився OpenAI демонструє, як модель оцінює кожен окремий крок прийняття рішення. На скріншоті, включеному до публікації, помилки у розв’язанні позначено прапорцями та надано найнижчу оцінку правильності, виділену червоним. Ця демонстрація підкреслює здатність моделі міркувати та дає цінну інформацію про процес прийняття рішень. OpenAI також надала інструкції щодо розмітки, пропонуючи краудсорсерам можливість зробити свій внесок і отримати користь від їхньої роботи.

As OpenAI продовжує розширювати межі досліджень штучного інтелекту, їхня зосередженість на модельних міркуваннях і моделюванні винагороди за процесом відкриває нові можливості для покращених можливостей штучного інтелекту. Цей останній прорив демонструє їхнє прагнення покращити продуктивність моделі та відкриває двері для подальшого прогресу в цій галузі.

Докладніше про ШІ:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

інші статті
Дамір Ялалов
Дамір Ялалов

Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється. 

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Інституційний апетит зростає до біткойн ETF на тлі волатильності

Розкриття інформації через документи 13F свідчить про те, що відомі інституційні інвестори займаються біткойн ETF, підкреслюючи зростаюче визнання ...

Дізнайтеся більше

Настав день винесення вироку: суд США розглядає прохання Міністерства юстиції щодо долі CZ.

Changpeng Zhao готовий зіткнутися з вироком у американському суді в Сіетлі сьогодні.

Дізнайтеся більше
Приєднуйтесь до нашої спільноти інноваційних технологій
Детальніше
Читати далі
Перехід Дональда Трампа на криптовалюту: від супротивника до прихильника та що це означає для ринку криптовалют США
Business ринки Розповіді та огляди Технологія
Перехід Дональда Трампа на криптовалюту: від супротивника до прихильника та що це означає для ринку криптовалют США
Травень 10, 2024
Layer3 запустить токен L3 цього літа, виділяючи 51% від загального обсягу поставок для спільноти
ринки Звіт про новини Технологія
Layer3 запустить токен L3 цього літа, виділяючи 51% від загального обсягу поставок для спільноти
Травень 10, 2024
Останнє попередження Едварда Сноудена розробникам Bitcoin: «Зробіть конфіденційність пріоритетом на рівні протоколу або ризикуйте її втратити»
ринки Безпека Wiki Софтвер Розповіді та огляди Технологія
Останнє попередження Едварда Сноудена розробникам Bitcoin: «Зробіть конфіденційність пріоритетом на рівні протоколу або ризикуйте її втратити»
Травень 10, 2024
Мережевий монетний двір Ethereum рівня 2 на основі оптимізму запустить свою мережу 15 травня
Звіт про новини Технологія
Мережевий монетний двір Ethereum рівня 2 на основі оптимізму запустить свою мережу 15 травня
Травень 10, 2024
CRYPTOMERIA LABS PTE. LTD.