Laporan berita Teknologi
Juni 01, 2023

OpenAI: Pemodelan Hadiah yang Diawasi Proses Baru Meningkatkan Penalaran AI

Singkatnya

OpenAIPemodelan imbalan yang diawasi proses (PRM) bertujuan untuk mengevaluasi langkah-langkah perantara dan penalaran model AI, yang mengarah pada peningkatan kinerja dan metrik.

OpenAI sekali lagi menarik perhatian komunitas AI dengan karya inovatif mereka dalam pemodelan penghargaan yang diawasi proses (PRM). Pendekatan inovatif ini bertujuan untuk mengevaluasi langkah-langkah perantara dan penalaran model AI, yang mengarah pada peningkatan kinerja dan metrik.

OpenAI: Pemodelan Penghargaan yang Diawasi Proses Baru Meningkatkan Penalaran AI
kredit: Metaverse Post (mpost.io)
Direkomendasikan: ChatGPT Bisa Mengubah Wall Street dengan Membuat Perdagangan Lebih Mudah

Dalam pembelajaran penguatan tradisional dari umpan balik manusia (RLHF), umpan balik model biasanya diberikan berdasarkan hasil keseluruhan yang dihasilkan oleh model. Namun, OpenAIPenelitian baru ini mengeksplorasi gagasan mengevaluasi langkah-langkah individu dan proses penalaran yang dilakukan oleh model. Dengan melakukan hal ini, mereka dapat memberikan penilaian dan umpan balik yang lebih terperinci.

Untuk mengatasi masalah ini, OpenAI masalah matematika terpilih yang memerlukan banyak tindakan. Yang terpisah model dilatih untuk secara efektif mengevaluasi langkah-langkah perantara, bertindak sebagai kritikus untuk mengidentifikasi penilaian yang salah yang dibuat oleh model utama. Proses ini tidak hanya meningkatkan kinerja keseluruhan tetapi juga meningkatkan metrik yang digunakan untuk menilai kemampuan model.

OpenAI telah membuat kemajuan signifikan dalam bidang ini, dengan dirilisnya kumpulan data yang dikurasi dengan cermat yang terdiri dari 800,000 penilaian yang ditandai. Setiap penilaian mewakili tahapan terpisah dalam memecahkan masalah matematika dan dibuat secara manual. Ini menyoroti tingkat dedikasi dan sumber daya OpenAI berinvestasi dalam mengembangkan kumpulan data berkualitas tinggi, menimbulkan pertanyaan tentang volume data yang dikumpulkan untuk domain lain seperti pemrograman atau pertanyaan terbuka.

Pelatihan GPT-4, OpenAIiterasi terbaru dari GPT seri, sudah berjalan dengan baik. Meskipun komponen RLHF tidak dimasukkan dalam eksperimen saat ini, model bahasa murni digunakan. Terutama, OpenAI menyebutkan bahwa ada beberapa versi GPT-4, dengan versi terkecil sekalipun membutuhkan sumber daya yang jauh lebih sedikit untuk pelatihan—kira-kira 200 kali lebih sedikit.

Contoh menarik yang dibagikan oleh OpenAI menampilkan bagaimana model mengevaluasi setiap langkah keputusan individu. Dalam tangkapan layar yang disertakan dalam postingan, kesalahan dalam solusi ditandai dan diberi skor kebenaran terendah, disorot dengan warna merah.
kredit: OpenAI

Contoh menarik yang dibagikan oleh OpenAI menunjukkan bagaimana model mengevaluasi setiap langkah pengambilan keputusan individu. Dalam tangkapan layar yang disertakan dalam postingan, kesalahan dalam solusi ditandai dan diberi skor kebenaran terendah, disorot dengan warna merah. Demonstrasi ini menyoroti kemampuan model dalam bernalar dan memberikan wawasan berharga dalam proses pengambilan keputusan. OpenAI juga telah memberikan instruksi untuk markup, menawarkan peluang bagi crowdsourcer untuk berkontribusi dan mendapatkan manfaat dari pekerjaan mereka.

As OpenAI terus mendorong batas-batas penelitian AI, fokus mereka pada penalaran model dan pemodelan penghargaan yang diawasi proses membawa kemungkinan-kemungkinan baru untuk meningkatkan kemampuan AI. Terobosan terbaru ini menunjukkan komitmen mereka untuk meningkatkan kinerja model dan membuka pintu bagi kemajuan lebih lanjut di bidangnya.

Baca lebih lanjut tentang AI:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

lebih artikel
Damir Yalalov
Damir Yalalov

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

Selera Institusional Tumbuh Terhadap ETF Bitcoin Di Tengah Volatilitas

Pengungkapan melalui pengajuan 13F mengungkapkan investor institusi terkemuka yang mencoba-coba ETF Bitcoin, menggarisbawahi semakin besarnya penerimaan ...

Tahu lebih banyak

Hari Hukuman Tiba: Nasib CZ Digantung Saat Pengadilan AS Mempertimbangkan Permohonan DOJ

Changpeng Zhao siap menghadapi hukuman di pengadilan AS di Seattle hari ini.

Tahu lebih banyak
Bergabunglah dengan Komunitas Teknologi Inovatif Kami
Baca Selengkapnya
Baca lebih lanjut
Peralihan Donald Trump ke Kripto: Dari Penentang Menjadi Advokat, dan Apa Artinya bagi Pasar Mata Uang Kripto AS
Bisnis pasar Cerita dan Ulasan Teknologi
Peralihan Donald Trump ke Kripto: Dari Penentang Menjadi Advokat, dan Apa Artinya bagi Pasar Mata Uang Kripto AS
10 Mei 2024
Layer3 Akan Meluncurkan Token L3 Musim Panas Ini, Mengalokasikan 51% Dari Total Pasokan Ke Komunitas
pasar Laporan berita Teknologi
Layer3 Akan Meluncurkan Token L3 Musim Panas Ini, Mengalokasikan 51% Dari Total Pasokan Ke Komunitas
10 Mei 2024
Peringatan Terakhir Edward Snowden kepada Pengembang Bitcoin: “Jadikan Privasi sebagai Prioritas Tingkat Protokol atau Berisiko Kehilangannya
pasar Security Wiki Perangkat lunak Cerita dan Ulasan Teknologi
Peringatan Terakhir Edward Snowden kepada Pengembang Bitcoin: “Jadikan Privasi sebagai Prioritas Tingkat Protokol atau Berisiko Kehilangannya
10 Mei 2024
Ethereum Layer 2 Network Mint yang Didukung Optimisme Akan Meluncurkan Mainnetnya Pada 15 Mei
Laporan berita Teknologi
Ethereum Layer 2 Network Mint yang Didukung Optimisme Akan Meluncurkan Mainnetnya Pada 15 Mei
10 Mei 2024