Tadqiqotchilar takrorlashdi OpenAIRLHF da proksimal siyosatni optimallashtirish (PPO) asosidagi ishi
Insoniy fikr-mulohazalardan o'rganishni kuchaytirish (RLHF) kabi o'quv tizimlarining ajralmas qismidir ChatGPT, va u muvaffaqiyatga erishish uchun maxsus usullarga tayanadi. Ushbu usullardan biri, Proksimal siyosatni optimallashtirish (PPO) dastlab edi homilador devorlari ichida OpenAI 2017-yilda. Bir qarashda, PPO amalga oshirishda soddaligi va modelni nozik sozlash uchun talab qilinadigan giperparametrlarning nisbatan kamligi va'dasi bilan ajralib turardi. Biroq, ular aytganidek, shayton tafsilotlarda.
Yaqinda blogda “Proksimal siyosatni optimallashtirishning 37 tatbiq etish tafsilotlari” PPO (ICLR konferentsiyasi uchun tayyorlangan) ning nozik tomonlariga oydinlik kiritdi. Nomning o'zi bu oddiy usulni amalga oshirishda duch keladigan qiyinchiliklarga ishora qiladi. Ajablanarlisi shundaki, barcha kerakli ma'lumotlarni to'plash va natijalarni takrorlash uchun mualliflarga uch yil kerak bo'ldi.
Kod ichidagi kod OpenAI repozitoriy versiyalar o'rtasida sezilarli o'zgarishlarga duch keldi, ba'zi jihatlar tushuntirilmadi va xato sifatida paydo bo'lgan o'ziga xosliklar qandaydir tarzda natijalar berdi. PPO ning murakkabligi siz tafsilotlarni o'rganganingizda aniq bo'ladi va chuqur tushunish yoki o'z-o'zini takomillashtirishga qiziquvchilar uchun juda tavsiya etilgan video xulosasi mavjud.
Ammo hikoya shu bilan tugamaydi. Xuddi shu mualliflar uni qayta ko'rib chiqishga qaror qilishdi openai/lm-human-preferences repository 2019-yildan boshlab, bu PPO-dan foydalanib, til modellarini inson xohishiga ko'ra nozik sozlashda hal qiluvchi rol o'ynadi. Ushbu ombor dastlabki o'zgarishlarni belgilab berdi ChatGPT. Oxirgi blog posti, "PPO bilan RLHF ning N amalga oshirish tafsilotlari,” yaqindan takrorlaydi OpenAIning ishi, lekin eskirgan TensorFlow o'rniga PyTorch va zamonaviy kutubxonalardan foydalanadi. Ushbu o'tish o'ziga xos qiyinchiliklar bilan birga keldi, masalan, ramkalar o'rtasida Adam optimallashtiruvchisini amalga oshirishdagi farqlar, bu esa tuzatishlarsiz treningni takrorlashni imkonsiz qildi.
Ehtimol, ushbu sayohatning eng qiziq tomoni bu asl ko'rsatkichlar va o'rganish egri chizig'ini olish uchun maxsus GPU sozlamalarida tajribalar o'tkazishga intilishdir. Bu turli xil GPU turlaridagi xotira cheklovlaridan tortib, ko'chishgacha bo'lgan qiyinchiliklarga to'la sayohat. OpenAI saqlash ob'ektlari orasidagi ma'lumotlar to'plami.
Xulosa qilib aytadigan bo'lsak, insonning fikr-mulohazalaridan (RLHF) o'rganishda proksimal siyosatni optimallashtirish (PPO) ni o'rganish murakkabliklarning ajoyib dunyosini ochib beradi.
Masʼuliyatdan voz kechish
Bunga javoban Ishonch loyihasi bo'yicha ko'rsatmalar, iltimos, ushbu sahifada taqdim etilgan ma'lumotlar yuridik, soliq, investitsiya, moliyaviy yoki boshqa har qanday maslahat shakli sifatida talqin qilinmasligi va talqin qilinmasligini unutmang. Faqat yo'qotishingiz mumkin bo'lgan narsaga investitsiya qilish va agar shubhangiz bo'lsa, mustaqil moliyaviy maslahat olish muhimdir. Qo'shimcha ma'lumot olish uchun biz shartlar va emitent yoki reklama beruvchi tomonidan taqdim etilgan yordam va qo'llab-quvvatlash sahifalariga murojaat qilishni tavsiya qilamiz. MetaversePost to'g'ri, xolis hisobot berish majburiyatini oladi, lekin bozor sharoitlari ogohlantirilmasdan o'zgarishi mumkin.
Muallif haqida
Damir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi.
Boshqa maqolalarDamir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi.