Ресеарцхерс Реплицатед OpenAIРад корисника заснован на проксималној оптимизацији политике (ППО) у РЛХФ
Учење са појачањем на основу повратних информација од људи (РЛХФ) је саставни део система обуке као што су ChatGPT, и ослања се на специјализоване методе за постизање успеха. Једна од ових метода, Проксимална оптимизација политике (ППО), у почетку је била замишљен унутар зидова од OpenAI у 2017. На први поглед, ППО се истакао по обећању једноставности у имплементацији и релативно малом броју хиперпараметара потребних за фино подешавање модела. Међутим, како кажу, ђаво је у детаљима.
Недавно је објављен пост на блогу под насловом „37 детаља имплементације проксималне оптимизације политике” расветлили су замршености ППО (припремљено за конференцију ИЦЛР). Само име наговештава изазове са којима се суочава примену овог наводно једноставног метода. Запањујуће, ауторима је требало три године да прикупе све потребне информације и репродукују резултате.
Код у OpenAI Репозиторијум је претрпео значајне измене између верзија, неки аспекти су остали необјашњени, а посебности које су се појављивале као грешке су донекле донеле резултате. Сложеност ППО постаје очигледна када се удубите у детаље, а за оне који су заинтересовани за дубоко разумевање или самопобољшање, доступан је видео сажетак који се препоручује.
Али прича се ту не завршава. Исти аутори су одлучили да поново погледају openai/лм-хуман-преференцес спремиште из 2019. године, који је одиграо кључну улогу у фином подешавању језичких модела на основу људских преференција, користећи ППО. Ово складиште је означило рани развој догађаја ChatGPT. Недавни пост на блогу, „Н Детаљи имплементације РЛХФ са ППО“, блиско реплицира OpenAI'с ради, али користи ПиТорцх и модерне библиотеке уместо застарелог ТенсорФлов-а. Ова транзиција је дошла са сопственим скупом изазова, као што су разлике у примени Адамовог оптимизатора између оквира, што онемогућава реплицирање обуке без прилагођавања.
Можда је најинтригантнији аспект овог путовања потрага за извођењем експеримената на одређеним ГПУ поставкама како би се добили оригинални показатељи и криве учења. То је путовање испуњено изазовима, од ограничења меморије на различитим типовима ГПУ-а до миграције OpenAI скупова података између складишних објеката.
У закључку, истраживање проксималне оптимизације политике (ППО) у учењу појачања из људских повратних информација (РЛХФ) открива фасцинантан свет сложености.
Одрицање од одговорности
У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.
О аутору
Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.
više чланакаДамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења.