Laporan berita Teknologi
Oktober 27, 2023

Peneliti Direplikasi OpenAIPekerjaan Berdasarkan Optimasi Kebijakan Proksimal (PPO) di RLHF

Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF) merupakan bagian integral dari sistem pelatihan seperti ChatGPT, dan itu bergantung pada metode khusus untuk mencapai kesuksesan. Salah satu metode ini, Proximal Policy Optimization (PPO), awalnya diluncurkan dikandung di dalam dinding OpenAI pada tahun 2017. Sekilas, PPO menonjol karena kemudahan implementasinya dan jumlah hyperparameter yang diperlukan untuk menyempurnakan modelnya relatif rendah. Namun, seperti yang mereka katakan, masalahnya ada pada detailnya.

Peneliti Direplikasi OpenAIPekerjaan Berdasarkan Optimasi Kebijakan Proksimal (PPO) di RLHF

Baru-baru ini, sebuah postingan blog berjudul “37 Detail Implementasi Optimalisasi Kebijakan Proksimal” menjelaskan seluk-beluk PPO (yang dipersiapkan untuk konferensi ICLR). Dari namanya saja sudah menunjukkan tantangan yang dihadapi dalam menerapkan metode yang dianggap mudah ini. Yang mengherankan, penulis membutuhkan waktu tiga tahun untuk mengumpulkan semua informasi yang diperlukan dan mereproduksi hasilnya.

Kode di OpenAI repositori mengalami perubahan signifikan antar versi, beberapa aspek tidak dijelaskan, dan keanehan yang muncul sebagai bug entah bagaimana membuahkan hasil. Kompleksitas PPO menjadi jelas saat Anda mempelajari detailnya, dan bagi mereka yang tertarik untuk memahami lebih dalam atau mengembangkan diri, tersedia ringkasan video yang sangat direkomendasikan.

Tapi ceritanya tidak berakhir di situ. Penulis yang sama memutuskan untuk meninjau kembali openai/ lm-repositori preferensi manusia dari tahun 2019, yang memainkan peran penting dalam menyempurnakan model bahasa berdasarkan preferensi manusia, menggunakan PPO. Repositori ini menandai perkembangan awal ChatGPT. Postingan blog terbaru, “N Detail Implementasi RLHF dengan PPO,” meniru dengan cermat OpenAIberfungsi tetapi menggunakan PyTorch dan perpustakaan modern, bukan TensorFlow yang sudah ketinggalan zaman. Transisi ini memiliki serangkaian tantangannya sendiri, seperti perbedaan dalam penerapan pengoptimal Adam antarkerangka kerja, sehingga tidak mungkin mereplikasi pelatihan tanpa penyesuaian.

Mungkin aspek paling menarik dari perjalanan ini adalah upaya menjalankan eksperimen pada pengaturan GPU tertentu untuk mendapatkan metrik dan kurva pembelajaran asli. Ini adalah perjalanan yang penuh tantangan, mulai dari keterbatasan memori pada berbagai jenis GPU hingga migrasi OpenAI kumpulan data antar fasilitas penyimpanan.

Kesimpulannya, eksplorasi Optimalisasi Kebijakan Proksimal (PPO) dalam Pembelajaran Penguatan dari Umpan Balik Manusia (RLHF) mengungkap dunia kompleksitas yang menakjubkan.

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

lebih artikel
Damir Yalalov
Damir Yalalov

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

Selera Institusional Tumbuh Terhadap ETF Bitcoin Di Tengah Volatilitas

Pengungkapan melalui pengajuan 13F mengungkapkan investor institusi terkemuka yang mencoba-coba ETF Bitcoin, menggarisbawahi semakin besarnya penerimaan ...

Tahu lebih banyak

Hari Hukuman Tiba: Nasib CZ Digantung Saat Pengadilan AS Mempertimbangkan Permohonan DOJ

Changpeng Zhao siap menghadapi hukuman di pengadilan AS di Seattle hari ini.

Tahu lebih banyak
Bergabunglah dengan Komunitas Teknologi Inovatif Kami
Baca Selengkapnya
Baca lebih lanjut
Peralihan Donald Trump ke Kripto: Dari Penentang Menjadi Advokat, dan Apa Artinya bagi Pasar Mata Uang Kripto AS
Bisnis pasar Cerita dan Ulasan Teknologi
Peralihan Donald Trump ke Kripto: Dari Penentang Menjadi Advokat, dan Apa Artinya bagi Pasar Mata Uang Kripto AS
10 Mei 2024
Layer3 Akan Meluncurkan Token L3 Musim Panas Ini, Mengalokasikan 51% Dari Total Pasokan Ke Komunitas
pasar Laporan berita Teknologi
Layer3 Akan Meluncurkan Token L3 Musim Panas Ini, Mengalokasikan 51% Dari Total Pasokan Ke Komunitas
10 Mei 2024
Peringatan Terakhir Edward Snowden kepada Pengembang Bitcoin: “Jadikan Privasi sebagai Prioritas Tingkat Protokol atau Berisiko Kehilangannya
pasar Security Wiki Perangkat lunak Cerita dan Ulasan Teknologi
Peringatan Terakhir Edward Snowden kepada Pengembang Bitcoin: “Jadikan Privasi sebagai Prioritas Tingkat Protokol atau Berisiko Kehilangannya
10 Mei 2024
Ethereum Layer 2 Network Mint yang Didukung Optimisme Akan Meluncurkan Mainnetnya Pada 15 Mei
Laporan berita Teknologi
Ethereum Layer 2 Network Mint yang Didukung Optimisme Akan Meluncurkan Mainnetnya Pada 15 Mei
10 Mei 2024