Naujienų ataskaita Technologija
Spalis 27, 2023

Tyrėjai atkartojo OpenAIDarbas, pagrįstas proksimalinės politikos optimizavimu (PPO) RLHF

Mokymasis iš žmogaus grįžtamojo ryšio (RLHF) yra neatsiejama mokymo sistemų, tokių kaip ChatGPT, ir ji remiasi specializuotais metodais, kad pasiektų sėkmę. Vienas iš šių metodų, proksimalinės politikos optimizavimas (PPO), iš pradžių buvo sumanyta sienų viduje OpenAI 2017 m. Iš pirmo žvilgsnio PPO išsiskyrė savo pažadu dėl įgyvendinimo paprastumo ir santykinai mažu hiperparametrų skaičiumi, reikalingu modeliui sureguliuoti. Tačiau, kaip sakoma, velnias slypi detalėse.

Tyrėjai atkartojo OpenAIDarbas, pagrįstas proksimalinės politikos optimizavimu (PPO) RLHF

Neseniai dienoraščio įrašas pavadinimu „37 artimiausios politikos optimizavimo įgyvendinimo detalės“ nušvietė PPO (parengta ICLR konferencijai) subtilybes. Jau vien pavadinimas sufleruoja apie iššūkius, su kuriais susiduriama įgyvendinant šį tariamai nesudėtingą metodą. Stebina tai, kad autoriams prireikė trejų metų surinkti visą reikiamą informaciją ir atkurti rezultatus.

Kodas, esantis OpenAI saugykla patyrė didelių pokyčių tarp versijų, kai kurie aspektai liko nepaaiškinti, o ypatumai, kurie pasirodė kaip klaidos, kažkaip davė rezultatų. PPO sudėtingumas tampa akivaizdus, ​​kai įsigilinate į detales, o tiems, kurie domisi giliu supratimu ar savęs tobulėjimu, yra labai rekomenduojama vaizdo santrauka.

Tačiau istorija tuo nesibaigia. Tie patys autoriai nusprendė dar kartą peržiūrėti openai/lm-human-preferences saugykla nuo 2019 m., kuris atliko lemiamą vaidmenį koreguojant kalbos modelius, pagrįstus žmogaus pageidavimais, naudojant PPO. Ši saugykla pažymėjo ankstyvuosius pokyčius ChatGPT. Naujausias tinklaraščio įrašas „RLHF N įgyvendinimo detalės su PPO“, - tiksliai kartoja OpenAIveikia, bet vietoj pasenusios TensorFlow naudoja PyTorch ir modernias bibliotekas. Šis perėjimas atėjo su savo iššūkių rinkiniu, pvz., „Adam optimizer“ diegimo skirtumais tarp schemų, todėl neįmanoma pakartoti mokymo be koregavimų.

Galbūt labiausiai intriguojantis šios kelionės aspektas yra siekis atlikti eksperimentus su konkrečiomis GPU sąrankomis, kad būtų galima gauti originalią metriką ir mokymosi kreives. Tai kelionė, kupina iššūkių – nuo ​​įvairių GPU tipų atminties apribojimų iki perkėlimo OpenAI duomenų rinkinius tarp saugyklų.

Apibendrinant galima teigti, kad artimosios politikos optimizavimo (PPO) tyrimas stiprinant mokymąsi iš žmonių atsiliepimų (RLHF) atskleidžia įspūdingą sudėtingumo pasaulį.

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Daugiau straipsnių
Damiras Jalalovas
Damiras Jalalovas

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Institucinis apetitas Bitcoin ETF atžvilgiu auga dėl nepastovumo

13F paraiškų atskleidimas atskleidžia žymius institucinius investuotojus, kurie naudojasi Bitcoin ETF, o tai rodo, kad vis labiau pritariama...

Žinoti daugiau

Ateina nuosprendžio paskelbimo diena: CZ likimas subalansuotas, nes JAV teismas svarsto DOJ prašymą

Changpeng Zhao šiandien laukia nuosprendžio JAV teisme Sietle.

Žinoti daugiau
Prisijunkite prie mūsų naujoviškų technologijų bendruomenės
Skaityti daugiau
Skaityti daugiau
Donaldo Trumpo perėjimas prie kriptovaliutų: iš oponento į advokatą ir ką tai reiškia JAV kriptovaliutų rinkai
Atsakingas verslas rinkos Istorijos ir apžvalgos Technologija
Donaldo Trumpo perėjimas prie kriptovaliutų: iš oponento į advokatą ir ką tai reiškia JAV kriptovaliutų rinkai
Gali 10, 2024
3 sluoksnis šią vasarą pristatys L3 žetoną, skirdamas 51 % visos tiekimo bendruomenei
rinkos Naujienų ataskaita Technologija
3 sluoksnis šią vasarą pristatys L3 žetoną, skirdamas 51 % visos tiekimo bendruomenei
Gali 10, 2024
Paskutinis Edwardo Snowdeno įspėjimas „Bitcoin“ kūrėjams: „Padarykite privatumą protokolo lygio prioritetu arba rizikuok jį prarasti
rinkos saugumas Wiki programinė įranga Istorijos ir apžvalgos Technologija
Paskutinis Edwardo Snowdeno įspėjimas „Bitcoin“ kūrėjams: „Padarykite privatumą protokolo lygio prioritetu arba rizikuok jį prarasti
Gali 10, 2024
„Optimizmo“ maitinama „Ethereum Layer 2 Network Mint“, kurios pagrindinis tinklas bus paleistas gegužės 15 d.
Naujienų ataskaita Technologija
„Optimizmo“ maitinama „Ethereum Layer 2 Network Mint“, kurios pagrindinis tinklas bus paleistas gegužės 15 d.
Gali 10, 2024
CRYPTOMERIA LABS PTE. LTD.