OpenAI: Pemodelan Ganjaran Diselia Proses Baharu Meningkatkan Penaakulan AI
Secara ringkas
OpenAIPemodelan ganjaran diselia proses (PRM) bertujuan untuk menilai langkah perantaraan dan penaakulan model AI, yang membawa kepada prestasi dan metrik yang lebih baik.
OpenAI telah sekali lagi menarik perhatian komuniti AI dengan kerja terobosan mereka dalam pemodelan ganjaran yang diselia proses (PRM). Pendekatan inovatif ini bertujuan untuk menilai langkah perantaraan dan penaakulan model AI, yang membawa kepada prestasi dan metrik yang lebih baik.
Dalam pembelajaran peneguhan tradisional daripada maklum balas manusia (Rlhf), maklum balas model biasanya diberikan berdasarkan hasil keseluruhan yang dijana oleh model. Walau bagaimanapun, OpenAIPenyelidikan baharu meneroka idea menilai langkah individu dan proses penaakulan yang dilakukan oleh model. Dengan berbuat demikian, mereka boleh memberikan penilaian dan maklum balas yang lebih terperinci.
Untuk mengatasi masalah ini, OpenAI masalah matematik terpilih yang memerlukan pelbagai tindakan. A berasingan model telah dilatih untuk menilai secara berkesan langkah-langkah perantaraan, bertindak sebagai pengkritik untuk mengenal pasti sebarang pertimbangan yang salah yang dibuat oleh model utama. Proses ini bukan sahaja meningkatkan prestasi keseluruhan tetapi juga menambah baik metrik yang digunakan untuk menilai keupayaan model.
OpenAI telah mencapai kemajuan yang ketara dalam bidang ini, dengan pengeluaran set data yang disusun rapi yang terdiri daripada 800,000 penghakiman bertanda. Setiap penghakiman mewakili peringkat berasingan dalam menyelesaikan masalah matematik dan dibuat secara manual. Ini menyerlahkan tahap dedikasi dan sumber OpenAI melabur dalam membangunkan set data berkualiti tinggi, menimbulkan soalan tentang jumlah data yang dikumpul untuk domain lain seperti pengaturcaraan atau soalan terbuka.
Latihan dari GPT-4, OpenAIlelaran terkini daripada GPT siri, sudah berjalan lancar. Walaupun komponen RLHF tidak digabungkan dalam eksperimen semasa, model bahasa tulen digunakan. Terutamanya, OpenAI menyebut bahawa terdapat pelbagai versi GPT-4, walaupun versi terkecil memerlukan sumber yang jauh lebih sedikit untuk latihan—lebih kurang 200 kali ganda.
Contoh menarik yang dikongsi oleh OpenAI mempamerkan cara model menilai setiap langkah keputusan individu. Dalam tangkapan skrin yang disertakan dalam siaran, ralat dalam penyelesaian dibenderakan dan diberi skor ketepatan terendah, diserlahkan dengan warna merah. Demonstrasi ini menyerlahkan keupayaan model untuk menaakul dan memberikan pandangan berharga ke dalam proses membuat keputusannya. OpenAI juga telah menyediakan arahan untuk markup, menawarkan peluang kepada sumber ramai untuk menyumbang dan mendapat manfaat daripada kerja mereka.
As OpenAI terus menolak sempadan penyelidikan AI, tumpuan mereka pada penaakulan model dan pemodelan ganjaran yang diselia proses membawa kemungkinan baharu untuk keupayaan AI yang dipertingkatkan. Kejayaan terbaru ini mempamerkan komitmen mereka untuk meningkatkan prestasi model dan membuka pintu kepada kemajuan selanjutnya dalam bidang ini.
- Baru-baru ini, Apple dilaporkan menyekat penggunaan pekerja ChatGPT dan chatbot berkuasa AI yang lain kerana kebimbangan privasi. The Wall Street Journal melaporkan bahawa pekerja juga dihadkan daripada menggunakan alat AI GitHub Copilot, yang membolehkan pengguna menulis kod perisian secara automatik. ChatGPT ialah chatbot berkuasa AI yang dibangunkan oleh OpenAI, yang telah dikritik kerana pelanggaran privasi.
Baca lebih lanjut mengenai AI:
Penafian
Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.
Tentang Pengarang
Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.
lebih banyak artikelDamir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.