Новински извештај технологија
Октобар КСНУМКС, КСНУМКС

Ресеарцхерс Реплицатед OpenAIРад корисника заснован на проксималној оптимизацији политике (ППО) у РЛХФ

Учење са појачањем на основу повратних информација од људи (РЛХФ) је саставни део система обуке као што су ChatGPT, и ослања се на специјализоване методе за постизање успеха. Једна од ових метода, Проксимална оптимизација политике (ППО), у почетку је била замишљен унутар зидова од OpenAI у 2017. На први поглед, ППО се истакао по обећању једноставности у имплементацији и релативно малом броју хиперпараметара потребних за фино подешавање модела. Међутим, како кажу, ђаво је у детаљима.

Ресеарцхерс Реплицатед OpenAIРад корисника заснован на проксималној оптимизацији политике (ППО) у РЛХФ

Недавно је објављен пост на блогу под насловом „37 детаља имплементације проксималне оптимизације политике” расветлили су замршености ППО (припремљено за конференцију ИЦЛР). Само име наговештава изазове са којима се суочава примену овог наводно једноставног метода. Запањујуће, ауторима је требало три године да прикупе све потребне информације и репродукују резултате.

Код у OpenAI Репозиторијум је претрпео значајне измене између верзија, неки аспекти су остали необјашњени, а посебности које су се појављивале као грешке су донекле донеле резултате. Сложеност ППО постаје очигледна када се удубите у детаље, а за оне који су заинтересовани за дубоко разумевање или самопобољшање, доступан је видео сажетак који се препоручује.

Али прича се ту не завршава. Исти аутори су одлучили да поново погледају openai/лм-хуман-преференцес спремиште из 2019. године, који је одиграо кључну улогу у фином подешавању језичких модела на основу људских преференција, користећи ППО. Ово складиште је означило рани развој догађаја ChatGPT. Недавни пост на блогу, „Н Детаљи имплементације РЛХФ са ППО“, блиско реплицира OpenAI'с ради, али користи ПиТорцх и модерне библиотеке уместо застарелог ТенсорФлов-а. Ова транзиција је дошла са сопственим скупом изазова, као што су разлике у примени Адамовог оптимизатора између оквира, што онемогућава реплицирање обуке без прилагођавања.

Можда је најинтригантнији аспект овог путовања потрага за извођењем експеримената на одређеним ГПУ поставкама како би се добили оригинални показатељи и криве учења. То је путовање испуњено изазовима, од ограничења меморије на различитим типовима ГПУ-а до миграције OpenAI скупова података између складишних објеката.

У закључку, истраживање проксималне оптимизације политике (ППО) у учењу појачања из људских повратних информација (РЛХФ) открива фасцинантан свет сложености.

Одрицање од одговорности

У складу са Смернице пројекта Труст, имајте на уму да информације дате на овој страници нису намењене и не треба да се тумаче као правни, порески, инвестициони, финансијски или било који други облик савета. Важно је да инвестирате само оно што можете приуштити да изгубите и да тражите независан финансијски савет ако сумњате. За додатне информације, предлажемо да погледате одредбе и услове, као и странице помоћи и подршке које пружа издавач или оглашивач. MetaversePost је посвећен тачном, непристрасном извештавању, али тржишни услови су подложни променама без претходне најаве.

О аутору

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења. 

više чланака
Дамир Иалалов
Дамир Иалалов

Дамир је вођа тима, менаџер производа и уредник у Metaverse Post, покривајући теме као што су АИ/МЛ, АГИ, ЛЛМ, Метаверсе и Web3-сродна поља. Његови чланци привлаче огромну публику од преко милион корисника сваког месеца. Чини се да је стручњак са 10 година искуства у СЕО и дигиталном маркетингу. Дамир се помиње у Масхабле, Виред, Cointelegraph, Тхе Нев Иоркер, Инсиде.цом, Ентрепренеур, БеИнЦрипто и друге публикације. Путује између УАЕ, Турске, Русије и ЗНД као дигитални номад. Дамир је стекао диплому физике, за коју верује да му је дало вештине критичког размишљања које су му потребне да буде успешан у свету интернета који се стално мења. 

Hot Stories
Придружите се нашем билтену.
Најновије вести

Институционални апетит расте према Битцоин ЕТФ-овима усред волатилности

Откривања путем 13Ф поднесака откривају значајне институционалне инвеститоре који се баве Битцоин ЕТФ-овима, наглашавајући све веће прихватање ...

Знате више

Стиже дан изрицања пресуде: Судбина ЦЗ-а виси у равнотежи док амерички суд разматра изјашњење Министарства правде

Цхангпенг Зхао се данас суочава са изрицањем казне на америчком суду у Сијетлу.

Знате више
Придружите се нашој заједници иновативних технологија
Опширније
opširnije
Прелазак Доналда Трампа на криптовалуту: од противника до заговорника и шта то значи за тржиште криптовалута САД
Posao tržišta Приче и критике технологија
Прелазак Доналда Трампа на криптовалуту: од противника до заговорника и шта то значи за тржиште криптовалута САД
Може 10, 2024
Лаиер3 ће лансирати Л3 токен овог лета, алоцирајући 51% укупне понуде заједници
tržišta Новински извештај технологија
Лаиер3 ће лансирати Л3 токен овог лета, алоцирајући 51% укупне понуде заједници
Може 10, 2024
Последње упозорење Едварда Сноудена за Битцоин програмере: „Учините приватност приоритетом на нивоу протокола или ризикујте да је изгубите
tržišta безбедност Wiki софтвер Приче и критике технологија
Последње упозорење Едварда Сноудена за Битцоин програмере: „Учините приватност приоритетом на нивоу протокола или ризикујте да је изгубите
Може 10, 2024
Етхереум Лаиер 2 Нетворк Минт покреће своју мрежу 15. маја
Новински извештај технологија
Етхереум Лаиер 2 Нетворк Минт покреће своју мрежу 15. маја
Може 10, 2024
ЦРИПТОМЕРИА ЛАБС ПТЕ. ЛТД.