Laporan Berita Teknologi
Oktober 27, 2023

Penyelidik Meniru OpenAIKerja Berdasarkan Pengoptimuman Dasar Proksimal (PPO) dalam RLHF

Pembelajaran Pengukuhan daripada Maklum Balas Manusia (RLHF) adalah sebahagian daripada sistem latihan seperti ChatGPT, dan ia bergantung pada kaedah khusus untuk mencapai kejayaan. Salah satu kaedah ini, Pengoptimuman Dasar Proksimal (PPO), pada mulanya dikandung dalam dinding OpenAI pada tahun 2017. Pada pandangan pertama, PPO menonjol kerana janji kesederhanaan dalam pelaksanaan dan bilangan hiperparameter yang agak rendah diperlukan untuk memperhalusi model. Walau bagaimanapun, seperti yang mereka katakan, syaitan adalah dalam butiran.

Penyelidik Meniru OpenAIKerja Berdasarkan Pengoptimuman Dasar Proksimal (PPO) dalam RLHF

Baru-baru ini, catatan blog bertajuk “37 Butiran Pelaksanaan Pengoptimuman Dasar Proksimal” memberi penerangan tentang selok-belok PPO (disediakan untuk persidangan ICLR). Nama sahaja membayangkan cabaran yang dihadapi dalam melaksanakan kaedah yang kononnya mudah ini. Anehnya, penulis mengambil masa tiga tahun untuk mengumpulkan semua maklumat yang diperlukan dan menghasilkan semula hasilnya.

Kod di OpenAI repositori mengalami perubahan ketara antara versi, beberapa aspek dibiarkan tidak dapat dijelaskan, dan keanehan yang muncul sebagai pepijat entah bagaimana menghasilkan hasil. Kerumitan PPO menjadi jelas apabila anda menyelidiki butirannya, dan bagi mereka yang berminat dengan pemahaman yang mendalam atau peningkatan diri, terdapat ringkasan video yang sangat disyorkan tersedia.

Tetapi cerita itu tidak berakhir di sana. Pengarang yang sama memutuskan untuk melawat semula openai/lm-human-preferences repositori mulai 2019, yang memainkan peranan penting dalam memperhalusi model bahasa berdasarkan pilihan manusia, menggunakan PPO. Repositori ini menandakan perkembangan awal pada ChatGPT. Catatan blog baru-baru ini, "N Butiran Pelaksanaan RLHF dengan PPO,” ulang rapat OpenAItetapi menggunakan PyTorch dan perpustakaan moden dan bukannya TensorFlow yang sudah lapuk. Peralihan ini datang dengan set cabarannya sendiri, seperti perbezaan dalam pelaksanaan pengoptimum Adam antara rangka kerja, menjadikannya mustahil untuk meniru latihan tanpa pelarasan.

Mungkin aspek yang paling menarik dalam perjalanan ini ialah usaha untuk menjalankan eksperimen pada persediaan GPU tertentu untuk mendapatkan metrik asal dan keluk pembelajaran. Ini adalah perjalanan yang penuh dengan cabaran, daripada kekangan memori pada pelbagai jenis GPU hinggalah penghijrahan OpenAI set data antara kemudahan storan.

Kesimpulannya, penerokaan Pengoptimuman Dasar Proksimal (PPO) dalam Pembelajaran Pengukuhan daripada Maklum Balas Manusia (RLHF) mendedahkan dunia kerumitan yang menarik.

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

lebih banyak artikel
Damir Yalalov
Damir Yalalov

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

Hot Stories
Sertai Surat Berita Kami.
Berita Terkini

Selera Institusi Berkembang Terhadap Bitcoin ETF Di Tengah-tengah Kemeruapan

Pendedahan melalui pemfailan 13F mendedahkan pelabur institusi terkenal yang berkecimpung dalam Bitcoin ETF, menekankan penerimaan yang semakin meningkat terhadap ...

Mengetahui lebih lanjut

Hari Penghukuman Tiba: Nasib CZ Bergantung Seimbang apabila Mahkamah AS Mempertimbangkan Rayuan DOJ

Changpeng Zhao bersedia untuk menghadapi hukuman di mahkamah AS di Seattle hari ini.

Mengetahui lebih lanjut
Sertai Komuniti Teknologi Inovatif Kami
Lebih Lanjut
Maklumat Lanjut
Lebih Protokol Merancang Untuk Melancarkan Mainnetnya Pada Jun Memandangkan Testnetnya Menarik Lebih 750,000 Pengguna
Laporan Berita Teknologi
Lebih Protokol Merancang Untuk Melancarkan Mainnetnya Pada Jun Memandangkan Testnetnya Menarik Lebih 750,000 Pengguna
Semoga 13, 2024
Tindakan keras terhadap Kripto di Rusia Datang sebagai Cadangan untuk Mengetatkan Peraturan untuk Pelombong Persendirian
Pendapat pasaran perisian Teknologi
Tindakan keras terhadap Kripto di Rusia Datang sebagai Cadangan untuk Mengetatkan Peraturan untuk Pelombong Persendirian
Semoga 13, 2024
Avalon Miner A1566 Canaan Membawa Inovasi kepada Perlombongan Bitcoin dengan Kecekapan 185 Thash/s dan 18.5J/T Semasa Mengemudi Era Selepas Separuh Masa
temuduga Perniagaan pasaran perisian Teknologi
Avalon Miner A1566 Canaan Membawa Inovasi kepada Perlombongan Bitcoin dengan Kecekapan 185 Thash/s dan 18.5J/T Semasa Mengemudi Era Selepas Separuh Masa
Semoga 13, 2024
Memanfaatkan Inovasi Blockchain: Jerman Mengambil Langkah Berani Ke Arah Transformasi Penjagaan Kesihatan dan Penjagaan Pesakit yang Dipertingkat
Gaya hidup pasaran perisian Cerita dan Ulasan Teknologi
Memanfaatkan Inovasi Blockchain: Jerman Mengambil Langkah Berani Ke Arah Transformasi Penjagaan Kesihatan dan Penjagaan Pesakit yang Dipertingkat
Semoga 13, 2024