Yangiliklar hisoboti texnologiya
Oktyabr 27, 2023

Tadqiqotchilar takrorlashdi OpenAIRLHF da proksimal siyosatni optimallashtirish (PPO) asosidagi ishi

Insoniy fikr-mulohazalardan o'rganishni kuchaytirish (RLHF) kabi o'quv tizimlarining ajralmas qismidir ChatGPT, va u muvaffaqiyatga erishish uchun maxsus usullarga tayanadi. Ushbu usullardan biri, Proksimal siyosatni optimallashtirish (PPO) dastlab edi homilador devorlari ichida OpenAI 2017-yilda. Bir qarashda, PPO amalga oshirishda soddaligi va modelni nozik sozlash uchun talab qilinadigan giperparametrlarning nisbatan kamligi va'dasi bilan ajralib turardi. Biroq, ular aytganidek, shayton tafsilotlarda.

Tadqiqotchilar takrorlashdi OpenAIRLHF da proksimal siyosatni optimallashtirish (PPO) asosidagi ishi

Yaqinda blogda “Proksimal siyosatni optimallashtirishning 37 tatbiq etish tafsilotlari” PPO (ICLR konferentsiyasi uchun tayyorlangan) ning nozik tomonlariga oydinlik kiritdi. Nomning o'zi bu oddiy usulni amalga oshirishda duch keladigan qiyinchiliklarga ishora qiladi. Ajablanarlisi shundaki, barcha kerakli ma'lumotlarni to'plash va natijalarni takrorlash uchun mualliflarga uch yil kerak bo'ldi.

Kod ichidagi kod OpenAI repozitoriy versiyalar o'rtasida sezilarli o'zgarishlarga duch keldi, ba'zi jihatlar tushuntirilmadi va xato sifatida paydo bo'lgan o'ziga xosliklar qandaydir tarzda natijalar berdi. PPO ning murakkabligi siz tafsilotlarni o'rganganingizda aniq bo'ladi va chuqur tushunish yoki o'z-o'zini takomillashtirishga qiziquvchilar uchun juda tavsiya etilgan video xulosasi mavjud.

Ammo hikoya shu bilan tugamaydi. Xuddi shu mualliflar uni qayta ko'rib chiqishga qaror qilishdi openai/lm-human-preferences repository 2019-yildan boshlab, bu PPO-dan foydalanib, til modellarini inson xohishiga ko'ra nozik sozlashda hal qiluvchi rol o'ynadi. Ushbu ombor dastlabki o'zgarishlarni belgilab berdi ChatGPT. Oxirgi blog posti, "PPO bilan RLHF ning N amalga oshirish tafsilotlari,” yaqindan takrorlaydi OpenAIning ishi, lekin eskirgan TensorFlow o'rniga PyTorch va zamonaviy kutubxonalardan foydalanadi. Ushbu o'tish o'ziga xos qiyinchiliklar bilan birga keldi, masalan, ramkalar o'rtasida Adam optimallashtiruvchisini amalga oshirishdagi farqlar, bu esa tuzatishlarsiz treningni takrorlashni imkonsiz qildi.

Ehtimol, ushbu sayohatning eng qiziq tomoni bu asl ko'rsatkichlar va o'rganish egri chizig'ini olish uchun maxsus GPU sozlamalarida tajribalar o'tkazishga intilishdir. Bu turli xil GPU turlaridagi xotira cheklovlaridan tortib, ko'chishgacha bo'lgan qiyinchiliklarga to'la sayohat. OpenAI saqlash ob'ektlari orasidagi ma'lumotlar to'plami.

Xulosa qilib aytadigan bo'lsak, insonning fikr-mulohazalaridan (RLHF) o'rganishda proksimal siyosatni optimallashtirish (PPO) ni o'rganish murakkabliklarning ajoyib dunyosini ochib beradi.

Masʼuliyatdan voz kechish

Bunga javoban Ishonch loyihasi bo'yicha ko'rsatmalar, iltimos, ushbu sahifada taqdim etilgan ma'lumotlar yuridik, soliq, investitsiya, moliyaviy yoki boshqa har qanday maslahat shakli sifatida talqin qilinmasligi va talqin qilinmasligini unutmang. Faqat yo'qotishingiz mumkin bo'lgan narsaga investitsiya qilish va agar shubhangiz bo'lsa, mustaqil moliyaviy maslahat olish muhimdir. Qo'shimcha ma'lumot olish uchun biz shartlar va emitent yoki reklama beruvchi tomonidan taqdim etilgan yordam va qo'llab-quvvatlash sahifalariga murojaat qilishni tavsiya qilamiz. MetaversePost to'g'ri, xolis hisobot berish majburiyatini oladi, lekin bozor sharoitlari ogohlantirilmasdan o'zgarishi mumkin.

Muallif haqida

Damir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi. 

Boshqa maqolalar
Damir Yalolov
Damir Yalolov

Damir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi. 

Hot Stories
Bizning xabarnomamizga qo'shiling.
So'nggi yangiliklar

Institutsional ishtaha o'zgaruvchanlik sharoitida Bitcoin ETFlariga nisbatan o'sib bormoqda

13F arizalari orqali oshkor qilish Bitcoin ETFs bilan shug'ullanadigan taniqli institutsional investorlarni ochib beradi, bu esa tobora ortib borayotgan qabul qilinishini ta'kidlaydi ...

Ko'proq ma'lumot oling

Hukm chiqarish kuni keldi: AQSh sudi DOJning iltimosini ko'rib chiqayotgani sababli CZ taqdiri muvozanatda.

Changpeng Chjao bugun AQShning Sietldagi sudida hukm chiqarilishiga tayyor.

Ko'proq ma'lumot oling
Innovatsion texnologiyalar hamjamiyatimizga qo'shiling
Ko'proq o'qing
Ko'proq o'qing
Side Protocol Incentivized Testnet-ni ishga tushiradi va Insider Point tizimini joriy qiladi, bu esa foydalanuvchilarga SIDE ball to'plash imkonini beradi.
Birja Yangiliklar hisoboti texnologiya
Side Protocol Incentivized Testnet-ni ishga tushiradi va Insider Point tizimini joriy qiladi, bu esa foydalanuvchilarga SIDE ball to'plash imkonini beradi.
, 9 2024 mumkin
Web3 va 2024-yil may oyida Kripto voqealari: Blokcheyn va yangi texnologiyalar va rivojlanayotgan tendentsiyalarni o‘rganish. DeFi
Digestalar ish Birja texnologiya
Web3 va 2024-yil may oyida Kripto voqealari: Blokcheyn va yangi texnologiyalar va rivojlanayotgan tendentsiyalarni o‘rganish. DeFi
, 9 2024 mumkin
Notcoin OKX Jumpstart-da ishga tushadi, konchilik uchun jami token ta'minotining 1.25 foizini taklif qiladi
Birja Yangiliklar hisoboti texnologiya
Notcoin OKX Jumpstart-da ishga tushadi, konchilik uchun jami token ta'minotining 1.25 foizini taklif qiladi
, 9 2024 mumkin
Puffer Finance o'zining asosiy tarmog'ini ishga tushirdi, tarmoqni markazsizlashtirish uchun tugun operatorini qo'shishni yaxshilaydi
Yangiliklar hisoboti texnologiya
Puffer Finance o'zining asosiy tarmog'ini ishga tushirdi, tarmoqni markazsizlashtirish uchun tugun operatorini qo'shishni yaxshilaydi
, 9 2024 mumkin
CRYPTOMERIA LABS PTE. LTD.