Uutisraportti Elektroniikka
Lokakuu 27, 2023

Tutkijat kopioivat OpenAIProksimaalisen politiikan optimointiin (PPO) perustuva työ RLHF:ssä

RLHF (Inforcement Learning from Human Feedback) on olennainen osa koulutusjärjestelmiä, kuten ChatGPT, ja se luottaa erikoismenetelmiin menestyäkseen. Yksi näistä menetelmistä, Proximal Policy Optimization (PPO), oli alun perin tuli raskaaksi seinien sisällä OpenAI Vuonna 2017. Ensi silmäyksellä PPO erottui lupauksestaan ​​toteutuksen yksinkertaisuudesta ja mallin hienosäätöön tarvittavien hyperparametrien suhteellisen pienestä määrästä. Kuitenkin, kuten he sanovat, paholainen on yksityiskohdissa.

Tutkijat kopioivat OpenAIProksimaalisen politiikan optimointiin (PPO) perustuva työ RLHF:ssä

Äskettäin ilmestyi blogiteksti "Proksimaalisen politiikan optimoinnin 37 toteutustietoa” valottaa PPO:n monimutkaisuutta (valmistellaan ICLR:n konferenssia varten). Pelkästään nimi vihjaa haasteisiin, joita tämän oletettavasti yksinkertaisen menetelmän toteuttaminen kohtaa. Hämmästyttävää kyllä, tekijöiltä kesti kolme vuotta kerätä kaikki tarvittavat tiedot ja toistaa tulokset.

Koodissa oleva koodi OpenAI arkisto koki merkittäviä muutoksia versioiden välillä, jotkut näkökohdat jäivät selittämättä, ja bugeina ilmenneet erityispiirteet tuottivat jotenkin tuloksia. PPO:n monimutkaisuus käy selväksi, kun syventyy yksityiskohtiin, ja syvällisestä ymmärryksestä tai itsensä kehittämisestä kiinnostuneille on saatavilla erittäin suositeltava videoyhteenveto.

Mutta tarina ei lopu tähän. Samat kirjoittajat päättivät käydä uudelleen openai/lm-human-preferences -tietovarasto vuodesta 2019, jolla oli ratkaiseva rooli ihmisten mieltymyksiin perustuvien kielimallien hienosäädössä PPO:n avulla. Tämä arkisto merkitsi varhaista kehitystä ChatGPT. Tuore blogikirjoitus "RLHF:n N toteutustiedot PPO:n kanssa”, toistaa tiiviisti OpenAI's toimii, mutta käyttää PyTorchia ja nykyaikaisia ​​kirjastoja vanhentuneen TensorFlow'n sijaan. Tämä siirtymä tuo mukanaan omat haasteensa, kuten erot Adam Optimizerin toteutuksessa kehyksien välillä, mikä teki mahdottomaksi toistaa koulutusta ilman muutoksia.

Ehkä kiehtovin näkökohta tällä matkalla on pyrkimys suorittaa kokeita tietyillä GPU-asetuksella alkuperäisten mittareiden ja oppimiskäyrien saamiseksi. Se on matka täynnä haasteita, erilaisten GPU-tyyppien muistirajoitteista niiden siirtymiseen OpenAI tietojoukot tallennustilojen välillä.

Yhteenvetona voidaan todeta, että proksimaalisen politiikan optimoinnin (PPO) tutkiminen inforcement Learning from Human Feedback (RLHF) -ohjelmassa paljastaa kiehtovan monimutkaisen maailman.

Vastuun kieltäminen

Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.

Author

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

lisää artikkeleita
Damir Yalalov
Damir Yalalov

Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa. 

Institutionaalinen ruokahalu kasvaa kohti Bitcoin ETF:iä volatiliteetin keskellä

13F-hakemusten kautta tehdyt ilmoitukset paljastavat merkittäviä institutionaalisia sijoittajia, jotka harrastavat Bitcoinin ETF:itä, mikä korostaa kasvavaa hyväksyntää ...

Tiedä enemmän

Tuomiopäivä saapuu: CZ:n kohtalo on tasapainossa, kun Yhdysvaltain tuomioistuin harkitsee DOJ:n vetoomusta

Changpeng Zhao odottaa tänään tuomiota Yhdysvaltain oikeudessa Seattlessa.

Tiedä enemmän
Liity innovatiiviseen teknologiayhteisöömme
Lue lisää
Lue lisää
Donald Trumpin siirtyminen kryptoon: vastustajasta puolestapuhujaksi ja mitä se tarkoittaa Yhdysvaltain kryptovaluuttamarkkinoille
Bisnes markkinat Tarinoita ja arvosteluja Elektroniikka
Donald Trumpin siirtyminen kryptoon: vastustajasta puolestapuhujaksi ja mitä se tarkoittaa Yhdysvaltain kryptovaluuttamarkkinoille
Voi 10, 2024
Layer3 lanseeraa L3 Tokenin tänä kesänä ja osoittaa 51 % kokonaistarjonnasta yhteisölle
markkinat Uutisraportti Elektroniikka
Layer3 lanseeraa L3 Tokenin tänä kesänä ja osoittaa 51 % kokonaistarjonnasta yhteisölle
Voi 10, 2024
Edward Snowdenin viimeinen varoitus Bitcoin-kehittäjille: "Tee tietosuojasta protokollatason prioriteetti tai vaaranna sen menettäminen
markkinat Turvallisuus Wiki Tuotteemme Tarinoita ja arvosteluja Elektroniikka
Edward Snowdenin viimeinen varoitus Bitcoin-kehittäjille: "Tee tietosuojasta protokollatason prioriteetti tai vaaranna sen menettäminen
Voi 10, 2024
Optimismikäyttöinen Ethereum Layer 2 Network Mint julkaisee verkkonsa 15. toukokuuta
Uutisraportti Elektroniikka
Optimismikäyttöinen Ethereum Layer 2 Network Mint julkaisee verkkonsa 15. toukokuuta
Voi 10, 2024
CRYPTOMERIA LABS PTE. OY.