Ulat sa Balita Teknolohiya
Oktubre 27, 2023

Ginagaya ng mga Mananaliksik OpenAIAng Trabaho ni Batay sa Proximal Policy Optimization (PPO) sa RLHF

Ang Reinforcement Learning mula sa Human Feedback (RLHF) ay isang mahalagang bahagi ng mga sistema ng pagsasanay tulad ng ChatGPT, at umaasa ito sa mga espesyal na pamamaraan upang makamit ang tagumpay. Isa sa mga pamamaraang ito, ang Proximal Policy Optimization (PPO), ay noong una naglihi sa loob ng mga pader ng OpenAI noong 2017. Sa unang sulyap, namumukod-tangi ang PPO para sa pangako nitong pagiging simple sa pagpapatupad at medyo mababa ang bilang ng mga hyperparameter na kinakailangan para maayos ang modelo. Gayunpaman, tulad ng sinasabi nila, ang diyablo ay nasa mga detalye.

Ginagaya ng mga Mananaliksik OpenAIAng Trabaho ni Batay sa Proximal Policy Optimization (PPO) sa RLHF

Kamakailan, isang blog post na pinamagatang “Ang 37 Mga Detalye ng Pagpapatupad ng Proximal Policy Optimization” nagbigay liwanag sa mga saliksik ng PPO (inihanda para sa kumperensya ng ICLR). Ang pangalan lamang ay nagpapahiwatig ng mga hamon na kinakaharap sa pagpapatupad ng diumano'y tuwirang pamamaraan. Nakapagtataka, tumagal ng tatlong taon ang mga may-akda upang tipunin ang lahat ng kinakailangang impormasyon at kopyahin ang mga resulta.

Ang code sa OpenAI Ang repository ay sumailalim sa mga makabuluhang pagbabago sa pagitan ng mga bersyon, ang ilang aspeto ay naiwang hindi maipaliwanag, at ang mga kakaibang hitsura na lumitaw bilang mga bug ay kahit papaano ay nagbunga ng mga resulta. Ang pagiging kumplikado ng PPO ay nagiging maliwanag kapag sinisiyasat mo ang mga detalye, at para sa mga interesado sa isang malalim na pag-unawa o pagpapahusay sa sarili, mayroong isang mataas na inirerekomendang buod ng video na magagamit.

Ngunit ang kuwento ay hindi nagtatapos doon. Ang parehong mga may-akda ay nagpasya na muling bisitahin ang openai/lm-human-preferences repository mula 2019, na gumanap ng mahalagang papel sa pag-fine-tune ng mga modelo ng wika batay sa mga kagustuhan ng tao, gamit ang PPO. Ang repositoryong ito ay minarkahan ang mga unang pag-unlad sa ChatGPT. Ang kamakailang post sa blog, "Ang N Mga Detalye ng Pagpapatupad ng RLHF kasama ang PPO,” malapit na pagkopya OpenAI's trabaho ngunit gumagamit ng PyTorch at modernong mga aklatan sa halip na ang lumang TensorFlow. Ang paglipat na ito ay dumating na may sarili nitong hanay ng mga hamon, tulad ng mga pagkakaiba sa pagpapatupad ng Adam optimizer sa pagitan ng mga frameworks, na ginagawang imposibleng kopyahin ang pagsasanay nang walang mga pagsasaayos.

Marahil ang pinaka nakakaintriga na aspeto ng paglalakbay na ito ay ang paghahanap na magpatakbo ng mga eksperimento sa mga partikular na pag-setup ng GPU upang makakuha ng mga orihinal na sukatan at mga curve sa pag-aaral. Isa itong paglalakbay na puno ng mga hamon, mula sa mga hadlang sa memorya sa iba't ibang uri ng GPU hanggang sa paglipat ng OpenAI mga dataset sa pagitan ng mga pasilidad ng imbakan.

Bilang konklusyon, ang paggalugad ng Proximal Policy Optimization (PPO) sa Reinforcement Learning mula sa Human Feedback (RLHF) ay nagpapakita ng isang kamangha-manghang mundo ng mga kumplikado.

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Mas marami pang artikulo
Damir Yalalov
Damir Yalalov

Si Damir ang pinuno ng pangkat, tagapamahala ng produkto, at editor sa Metaverse Post, sumasaklaw sa mga paksa gaya ng AI/ML, AGI, LLMs, Metaverse, at Web3-mga kaugnay na larangan. Ang kanyang mga artikulo ay umaakit ng napakalaking madla na mahigit sa isang milyong user bawat buwan. Mukhang isa siyang eksperto na may 10 taong karanasan sa SEO at digital marketing. Nabanggit si Damir sa Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, at iba pang publikasyon. Naglalakbay siya sa pagitan ng UAE, Turkey, Russia, at ng CIS bilang digital nomad. Nakamit ni Damir ang bachelor's degree sa physics, na pinaniniwalaan niyang nagbigay sa kanya ng mga kritikal na kasanayan sa pag-iisip na kailangan para maging matagumpay sa pabago-bagong tanawin ng internet. 

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Ang mga pagsisiwalat sa pamamagitan ng 13F filing ay nagpapakita ng mga kilalang institusyonal na mamumuhunan na nakikipag-ugnayan sa mga Bitcoin ETF, na binibigyang-diin ang lumalaking pagtanggap ng ...

Malaman Higit Pa

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
Ang Paglipat ni Donald Trump sa Crypto: Mula sa Kalaban hanggang sa Tagapagtaguyod, at Ano ang Kahulugan Nito para sa US Cryptocurrency Market
Negosyo markets Mga Kuwento at Pagsusuri Teknolohiya
Ang Paglipat ni Donald Trump sa Crypto: Mula sa Kalaban hanggang sa Tagapagtaguyod, at Ano ang Kahulugan Nito para sa US Cryptocurrency Market
Mayo 10, 2024
Layer3 Upang Ilunsad ang L3 Token Ngayong Tag-init, Naglalaan ng 51% Ng Kabuuang Supply Sa Komunidad
markets Ulat sa Balita Teknolohiya
Layer3 Upang Ilunsad ang L3 Token Ngayong Tag-init, Naglalaan ng 51% Ng Kabuuang Supply Sa Komunidad
Mayo 10, 2024
Ang Pangwakas na Babala ni Edward Snowden sa Mga Nag-develop ng Bitcoin: “Gawing Priyoridad sa Antas ng Protokol ang Pagkapribado o Panganib na Mawala Ito
markets Katiwasayan Wiki software Mga Kuwento at Pagsusuri Teknolohiya
Ang Pangwakas na Babala ni Edward Snowden sa Mga Nag-develop ng Bitcoin: “Gawing Priyoridad sa Antas ng Protokol ang Pagkapribado o Panganib na Mawala Ito
Mayo 10, 2024
Optimism-Powered Ethereum Layer 2 Network Mint Upang Ilunsad ang Mainnet Nito Sa Mayo 15
Ulat sa Balita Teknolohiya
Optimism-Powered Ethereum Layer 2 Network Mint Upang Ilunsad ang Mainnet Nito Sa Mayo 15
Mayo 10, 2024
CRYPTOMERIA LABS PTE. LTD.