Peneliti Direplikasi OpenAIPekerjaan Berdasarkan Optimasi Kebijakan Proksimal (PPO) di RLHF
Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF) merupakan bagian integral dari sistem pelatihan seperti ChatGPT, dan itu bergantung pada metode khusus untuk mencapai kesuksesan. Salah satu metode ini, Proximal Policy Optimization (PPO), awalnya diluncurkan dikandung di dalam dinding OpenAI pada tahun 2017. Sekilas, PPO menonjol karena kemudahan implementasinya dan jumlah hyperparameter yang diperlukan untuk menyempurnakan modelnya relatif rendah. Namun, seperti yang mereka katakan, masalahnya ada pada detailnya.
Baru-baru ini, sebuah postingan blog berjudul “37 Detail Implementasi Optimalisasi Kebijakan Proksimal” menjelaskan seluk-beluk PPO (yang dipersiapkan untuk konferensi ICLR). Dari namanya saja sudah menunjukkan tantangan yang dihadapi dalam menerapkan metode yang dianggap mudah ini. Yang mengherankan, penulis membutuhkan waktu tiga tahun untuk mengumpulkan semua informasi yang diperlukan dan mereproduksi hasilnya.
Kode di OpenAI repositori mengalami perubahan signifikan antar versi, beberapa aspek tidak dijelaskan, dan keanehan yang muncul sebagai bug entah bagaimana membuahkan hasil. Kompleksitas PPO menjadi jelas saat Anda mempelajari detailnya, dan bagi mereka yang tertarik untuk memahami lebih dalam atau mengembangkan diri, tersedia ringkasan video yang sangat direkomendasikan.
Tapi ceritanya tidak berakhir di situ. Penulis yang sama memutuskan untuk meninjau kembali openai/ lm-repositori preferensi manusia dari tahun 2019, yang memainkan peran penting dalam menyempurnakan model bahasa berdasarkan preferensi manusia, menggunakan PPO. Repositori ini menandai perkembangan awal ChatGPT. Postingan blog terbaru, “N Detail Implementasi RLHF dengan PPO,” meniru dengan cermat OpenAIberfungsi tetapi menggunakan PyTorch dan perpustakaan modern, bukan TensorFlow yang sudah ketinggalan zaman. Transisi ini memiliki serangkaian tantangannya sendiri, seperti perbedaan dalam penerapan pengoptimal Adam antarkerangka kerja, sehingga tidak mungkin mereplikasi pelatihan tanpa penyesuaian.
Mungkin aspek paling menarik dari perjalanan ini adalah upaya menjalankan eksperimen pada pengaturan GPU tertentu untuk mendapatkan metrik dan kurva pembelajaran asli. Ini adalah perjalanan yang penuh tantangan, mulai dari keterbatasan memori pada berbagai jenis GPU hingga migrasi OpenAI kumpulan data antar fasilitas penyimpanan.
Kesimpulannya, eksplorasi Optimalisasi Kebijakan Proksimal (PPO) dalam Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF) mengungkap dunia kompleksitas yang menakjubkan.
Penolakan tanggung jawab
Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.
Tentang Penulis
Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.
lebih artikelDamir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.