OpenAI: Нови модел награђивања под надзором процеса побољшава АИ резоновање
Укратко
OpenAIМоделирање награда под надзором процеса (ПРМ) има за циљ да процени међукораке и образложење АИ модела, што доводи до побољшаних перформанси и метрике.
OpenAI је још једном привукао пажњу АИ заједнице својим револуционарним радом у моделирању награда под надзором процеса (ПРМс). Овај иновативни приступ има за циљ да процени међукораке и образложење АИ модела, што доводи до побољшаних перформанси и метрике.
У традиционалном учењу уз помоћ повратних информација људи (РЛХФ), повратна информација о моделу се обично даје на основу укупног резултата који модел генерише. Међутим, OpenAIНово истраживање истражује идеју евалуације појединачних корака и процеса расуђивања које предузима модел. На тај начин могу да пруже детаљније процене и повратне информације.
Да бисте решили овај проблем, OpenAI одабрани математички проблеми који су захтевали више радњи. Засебан модел био је обучен да ефективно процени међукораке, делујући као критичар да идентификује све погрешне пресуде које је донео примарни модел. Овај процес не само да побољшава укупне перформансе већ и побољшава метрику која се користи за процену могућности модела.
OpenAI је направио значајан напредак у овој области, са објављивањем пажљиво курираног скупа података који се састоји од 800,000 обележених пресуда. Сваки суд представља посебну фазу у решавању математичких задатака и креиран је ручно. Ово наглашава ниво посвећености и ресурса OpenAI улаже у развој скупова података високог квалитета, постављајући питања о обиму података прикупљених за друге домене као што су програмирање или отворена питања.
Обука GPT-4, OpenAI'с последња итерација GPT серија, већ је увелико у току. Док РЛХФ компонента није укључена у тренутне експерименте, користи се модел чистог језика. Посебно, OpenAI помиње да постоји више верзија GPT-4, при чему чак и најмања верзија захтева знатно мање ресурса за обуку—приближно 200 пута мање.
Интригантан пример који дели OpenAI приказује како модел оцењује сваки појединачни корак одлуке. На снимку екрана укљученом у пост, грешке у решењу су означене и дају најнижи резултат исправности, означене црвеном бојом. Ова демонстрација наглашава способност модела да расуђује и пружа вредан увид у процес доношења одлука. OpenAI такође је обезбедио упутства за маркупе, нудећи могућности краудсорсерима да допринесу и имају користи од свог рада.
As OpenAI наставља да помера границе истраживања вештачке интелигенције, њихов фокус на размишљање модела и моделирање награда под надзором процеса доноси нове могућности за побољшане АИ способности. Ово најновије откриће показује њихову посвећеност побољшању перформанси модела и отвара врата за даљи напредак у овој области.
- Недавно, Аппле наводно ограничава употребу запослених ChatGPT и други цхатботови са АИ-ом због забринутости за приватност. Валл Стреет Јоурнал је известио да је радницима такође забрањено коришћење ГитХуб-овог АИ алата Цопилот, који омогућава корисницима да аутоматски пишу софтверски код. ChatGPT је цхатбот са АИ који је развио OpenAI, који је критикован због кршења приватности.
Прочитајте више о АИ:
Одрицање од одговорности
У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.
О аутору
Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.
više чланакаДамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.