Новински извештај технологија
Јун 01, 2023

OpenAI: Нови модел награђивања под надзором процеса побољшава АИ резоновање

Укратко

OpenAIМоделирање награда под надзором процеса (ПРМ) има за циљ да процени међукораке и образложење АИ модела, што доводи до побољшаних перформанси и метрике.

OpenAI је још једном привукао пажњу АИ заједнице својим револуционарним радом у моделирању награда под надзором процеса (ПРМс). Овај иновативни приступ има за циљ да процени међукораке и образложење АИ модела, што доводи до побољшаних перформанси и метрике.

OpenAI: Нови модел награђивања под надзором процеса побољшава АИ резоновање
Кредит: Metaverse Post (mpost.ио)
Рецоммендед: ChatGPT Могао би променити Волстрит тако што би олакшао трговање

У традиционалном учењу уз помоћ повратних информација људи (РЛХФ), повратна информација о моделу се обично даје на основу укупног резултата који модел генерише. Међутим, OpenAIНово истраживање истражује идеју евалуације појединачних корака и процеса расуђивања које предузима модел. На тај начин могу да пруже детаљније процене и повратне информације.

Да бисте решили овај проблем, OpenAI одабрани математички проблеми који су захтевали више радњи. Засебан модел био је обучен да ефективно процени међукораке, делујући као критичар да идентификује све погрешне пресуде које је донео примарни модел. Овај процес не само да побољшава укупне перформансе већ и побољшава метрику која се користи за процену могућности модела.

OpenAI је направио значајан напредак у овој области, са објављивањем пажљиво курираног скупа података који се састоји од 800,000 обележених пресуда. Сваки суд представља посебну фазу у решавању математичких задатака и креиран је ручно. Ово наглашава ниво посвећености и ресурса OpenAI улаже у развој скупова података високог квалитета, постављајући питања о обиму података прикупљених за друге домене као што су програмирање или отворена питања.

Обука GPT-4, OpenAI'с последња итерација GPT серија, већ је увелико у току. Док РЛХФ компонента није укључена у тренутне експерименте, користи се модел чистог језика. Посебно, OpenAI помиње да постоји више верзија GPT-4, при чему чак и најмања верзија захтева знатно мање ресурса за обуку—приближно 200 пута мање.

Интригантан пример који дели OpenAI приказује како модел оцењује сваки појединачни корак одлуке. На снимку екрана укљученом у пост, грешке у решењу су означене и дају најнижи резултат исправности, означене црвеном бојом.
Кредит: OpenAI

Интригантан пример који дели OpenAI приказује како модел оцењује сваки појединачни корак одлуке. На снимку екрана укљученом у пост, грешке у решењу су означене и дају најнижи резултат исправности, означене црвеном бојом. Ова демонстрација наглашава способност модела да расуђује и пружа вредан увид у процес доношења одлука. OpenAI такође је обезбедио упутства за маркупе, нудећи могућности краудсорсерима да допринесу и имају користи од свог рада.

As OpenAI наставља да помера границе истраживања вештачке интелигенције, њихов фокус на размишљање модела и моделирање награда под надзором процеса доноси нове могућности за побољшане АИ способности. Ово најновије откриће показује њихову посвећеност побољшању перформанси модела и отвара врата за даљи напредак у овој области.

Прочитајте више о АИ:

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења. 

više чланака
Дамир Иалалов
Дамир Иалалов

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења. 

Hot Stories
Придружите се нашем билтену.
Најновије вести

Институционални апетит расте према Битцоин ЕТФ-овима усред волатилности

Откривања путем 13Ф поднесака откривају значајне институционалне инвеститоре који се баве Битцоин ЕТФ-овима, наглашавајући све веће прихватање ...

Знате више

Стиже дан изрицања пресуде: Судбина ЦЗ-а виси у равнотежи док амерички суд разматра изјашњење Министарства правде

Цхангпенг Зхао се данас суочава са изрицањем казне на америчком суду у Сијетлу.

Знате више
Придружите се нашој заједници иновативних технологија
Опширније
opširnije
Прелазак Доналда Трампа на криптовалуту: од противника до заговорника и шта то значи за тржиште криптовалута САД
Posao tržišta Приче и критике технологија
Прелазак Доналда Трампа на криптовалуту: од противника до заговорника и шта то значи за тржиште криптовалута САД
Може 10, 2024
Лаиер3 ће лансирати Л3 токен овог лета, алоцирајући 51% укупне понуде заједници
tržišta Новински извештај технологија
Лаиер3 ће лансирати Л3 токен овог лета, алоцирајући 51% укупне понуде заједници
Може 10, 2024
Последње упозорење Едварда Сноудена за Битцоин програмере: „Учините приватност приоритетом на нивоу протокола или ризикујте да је изгубите
tržišta безбедност Wiki софтвер Приче и критике технологија
Последње упозорење Едварда Сноудена за Битцоин програмере: „Учините приватност приоритетом на нивоу протокола или ризикујте да је изгубите
Може 10, 2024
Етхереум Лаиер 2 Нетворк Минт покреће своју мрежу 15. маја
Новински извештај технологија
Етхереум Лаиер 2 Нетворк Минт покреће своју мрежу 15. маја
Може 10, 2024
ЦРИПТОМЕРИА ЛАБС ПТЕ. ЛТД.