OpenAI: Pemodelan Hadiah yang Diawasi Proses Baru Meningkatkan Penalaran AI
Singkatnya
OpenAIPemodelan imbalan yang diawasi proses (PRM) bertujuan untuk mengevaluasi langkah-langkah perantara dan penalaran model AI, yang mengarah pada peningkatan kinerja dan metrik.
OpenAI sekali lagi menarik perhatian komunitas AI dengan karya inovatif mereka dalam pemodelan penghargaan yang diawasi proses (PRM). Pendekatan inovatif ini bertujuan untuk mengevaluasi langkah-langkah perantara dan penalaran model AI, yang mengarah pada peningkatan kinerja dan metrik.
Direkomendasikan: ChatGPT Bisa Mengubah Wall Street dengan Membuat Perdagangan Lebih Mudah |
Dalam pembelajaran penguatan tradisional dari umpan balik manusia (RLHF), umpan balik model biasanya diberikan berdasarkan hasil keseluruhan yang dihasilkan oleh model. Namun, OpenAIPenelitian baru ini mengeksplorasi gagasan mengevaluasi langkah-langkah individu dan proses penalaran yang dilakukan oleh model. Dengan melakukan hal ini, mereka dapat memberikan penilaian dan umpan balik yang lebih terperinci.
Untuk mengatasi masalah ini, OpenAI masalah matematika terpilih yang memerlukan banyak tindakan. Yang terpisah model dilatih untuk secara efektif mengevaluasi langkah-langkah perantara, bertindak sebagai kritikus untuk mengidentifikasi penilaian yang salah yang dibuat oleh model utama. Proses ini tidak hanya meningkatkan kinerja keseluruhan tetapi juga meningkatkan metrik yang digunakan untuk menilai kemampuan model.
OpenAI telah membuat kemajuan signifikan dalam bidang ini, dengan dirilisnya kumpulan data yang dikurasi dengan cermat yang terdiri dari 800,000 penilaian yang ditandai. Setiap penilaian mewakili tahapan terpisah dalam memecahkan masalah matematika dan dibuat secara manual. Ini menyoroti tingkat dedikasi dan sumber daya OpenAI berinvestasi dalam mengembangkan kumpulan data berkualitas tinggi, menimbulkan pertanyaan tentang volume data yang dikumpulkan untuk domain lain seperti pemrograman atau pertanyaan terbuka.
Pelatihan GPT-4, OpenAIiterasi terbaru dari GPT seri, sudah berjalan dengan baik. Meskipun komponen RLHF tidak dimasukkan dalam eksperimen saat ini, model bahasa murni digunakan. Terutama, OpenAI menyebutkan bahwa ada beberapa versi GPT-4, dengan versi terkecil sekalipun membutuhkan sumber daya yang jauh lebih sedikit untuk pelatihan—kira-kira 200 kali lebih sedikit.
Contoh menarik yang dibagikan oleh OpenAI menunjukkan bagaimana model mengevaluasi setiap langkah pengambilan keputusan individu. Dalam tangkapan layar yang disertakan dalam postingan, kesalahan dalam solusi ditandai dan diberi skor kebenaran terendah, disorot dengan warna merah. Demonstrasi ini menyoroti kemampuan model dalam bernalar dan memberikan wawasan berharga dalam proses pengambilan keputusan. OpenAI juga telah memberikan instruksi untuk markup, menawarkan peluang bagi crowdsourcer untuk berkontribusi dan mendapatkan manfaat dari pekerjaan mereka.
As OpenAI terus mendorong batas-batas penelitian AI, fokus mereka pada penalaran model dan pemodelan penghargaan yang diawasi proses membawa kemungkinan-kemungkinan baru untuk meningkatkan kemampuan AI. Terobosan terbaru ini menunjukkan komitmen mereka untuk meningkatkan kinerja model dan membuka pintu bagi kemajuan lebih lanjut di bidangnya.
- Baru-baru ini Apple dilaporkan membatasi penggunaan karyawan ChatGPT dan chatbot bertenaga AI lainnya karena masalah privasi. The Wall Street Journal melaporkan bahwa pekerja juga dilarang menggunakan alat AI Copilot GitHub, yang memungkinkan pengguna untuk secara otomatis menulis kode perangkat lunak. ChatGPT adalah chatbot bertenaga AI yang dikembangkan oleh OpenAI, yang telah dikritik karena pelanggaran privasi.
Baca lebih lanjut tentang AI:
Penolakan tanggung jawab
Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.
Tentang Penulis
Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.
lebih artikelDamir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.