Laporan Berita Teknologi
Jun 01, 2023

OpenAI: Pemodelan Ganjaran Diselia Proses Baharu Meningkatkan Penaakulan AI

Secara ringkas

OpenAIPemodelan ganjaran diselia proses (PRM) bertujuan untuk menilai langkah perantaraan dan penaakulan model AI, yang membawa kepada prestasi dan metrik yang lebih baik.

OpenAI telah sekali lagi menarik perhatian komuniti AI dengan kerja terobosan mereka dalam pemodelan ganjaran yang diselia proses (PRM). Pendekatan inovatif ini bertujuan untuk menilai langkah perantaraan dan penaakulan model AI, yang membawa kepada prestasi dan metrik yang lebih baik.

OpenAI: Pemodelan Ganjaran Diselia Proses Baharu Meningkatkan Penaakulan AI
Kredit: Metaverse Post (mpost.io)
Disyorkan: ChatGPT Boleh Mengubah Wall Street dengan Menjadikan Dagangan Lebih Mudah

Dalam pembelajaran peneguhan tradisional daripada maklum balas manusia (Rlhf), maklum balas model biasanya diberikan berdasarkan hasil keseluruhan yang dijana oleh model. Walau bagaimanapun, OpenAIPenyelidikan baharu meneroka idea menilai langkah individu dan proses penaakulan yang dilakukan oleh model. Dengan berbuat demikian, mereka boleh memberikan penilaian dan maklum balas yang lebih terperinci.

Untuk mengatasi masalah ini, OpenAI masalah matematik terpilih yang memerlukan pelbagai tindakan. A berasingan model telah dilatih untuk menilai secara berkesan langkah-langkah perantaraan, bertindak sebagai pengkritik untuk mengenal pasti sebarang pertimbangan yang salah yang dibuat oleh model utama. Proses ini bukan sahaja meningkatkan prestasi keseluruhan tetapi juga menambah baik metrik yang digunakan untuk menilai keupayaan model.

OpenAI telah mencapai kemajuan yang ketara dalam bidang ini, dengan pengeluaran set data yang disusun rapi yang terdiri daripada 800,000 penghakiman bertanda. Setiap penghakiman mewakili peringkat berasingan dalam menyelesaikan masalah matematik dan dibuat secara manual. Ini menyerlahkan tahap dedikasi dan sumber OpenAI melabur dalam membangunkan set data berkualiti tinggi, menimbulkan soalan tentang jumlah data yang dikumpul untuk domain lain seperti pengaturcaraan atau soalan terbuka.

Latihan dari GPT-4, OpenAIlelaran terkini daripada GPT siri, sudah berjalan lancar. Walaupun komponen RLHF tidak digabungkan dalam eksperimen semasa, model bahasa tulen digunakan. Terutamanya, OpenAI menyebut bahawa terdapat pelbagai versi GPT-4, walaupun versi terkecil memerlukan sumber yang jauh lebih sedikit untuk latihan—lebih kurang 200 kali ganda.

Contoh menarik yang dikongsi oleh OpenAI mempamerkan cara model menilai setiap langkah keputusan individu. Dalam tangkapan skrin yang disertakan dalam siaran, ralat dalam penyelesaian dibenderakan dan diberi skor ketepatan terendah, diserlahkan dengan warna merah.
Kredit: OpenAI

Contoh menarik yang dikongsi oleh OpenAI mempamerkan cara model menilai setiap langkah keputusan individu. Dalam tangkapan skrin yang disertakan dalam siaran, ralat dalam penyelesaian dibenderakan dan diberi skor ketepatan terendah, diserlahkan dengan warna merah. Demonstrasi ini menyerlahkan keupayaan model untuk menaakul dan memberikan pandangan berharga ke dalam proses membuat keputusannya. OpenAI juga telah menyediakan arahan untuk markup, menawarkan peluang kepada sumber ramai untuk menyumbang dan mendapat manfaat daripada kerja mereka.

As OpenAI terus menolak sempadan penyelidikan AI, tumpuan mereka pada penaakulan model dan pemodelan ganjaran yang diselia proses membawa kemungkinan baharu untuk keupayaan AI yang dipertingkatkan. Kejayaan terbaru ini mempamerkan komitmen mereka untuk meningkatkan prestasi model dan membuka pintu kepada kemajuan selanjutnya dalam bidang ini.

Baca lebih lanjut mengenai AI:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

lebih banyak artikel
Damir Yalalov
Damir Yalalov

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

Selera Institusi Berkembang Terhadap Bitcoin ETF Di Tengah-tengah Kemeruapan

Pendedahan melalui pemfailan 13F mendedahkan pelabur institusi terkenal yang berkecimpung dalam Bitcoin ETF, menekankan penerimaan yang semakin meningkat terhadap ...

Mengetahui lebih lanjut

Hari Penghukuman Tiba: Nasib CZ Bergantung Seimbang apabila Mahkamah AS Mempertimbangkan Rayuan DOJ

Changpeng Zhao bersedia untuk menghadapi hukuman di mahkamah AS di Seattle hari ini.

Mengetahui lebih lanjut
Sertai Komuniti Teknologi Inovatif Kami
Lebih Lanjut
Maklumat Lanjut
Peralihan Donald Trump kepada Kripto: Daripada Lawan kepada Peguambela, dan Apa Maknanya untuk Pasaran Mata Wang Kripto AS
Perniagaan pasaran Cerita dan Ulasan Teknologi
Peralihan Donald Trump kepada Kripto: Daripada Lawan kepada Peguambela, dan Apa Maknanya untuk Pasaran Mata Wang Kripto AS
Semoga 10, 2024
Layer3 Untuk Melancarkan Token L3 Musim Panas Ini, Memperuntukkan 51% Daripada Jumlah Bekalan Kepada Komuniti
pasaran Laporan Berita Teknologi
Layer3 Untuk Melancarkan Token L3 Musim Panas Ini, Memperuntukkan 51% Daripada Jumlah Bekalan Kepada Komuniti
Semoga 10, 2024
Amaran Terakhir Edward Snowden kepada Pemaju Bitcoin: “Jadikan Privasi sebagai Keutamaan Tahap Protokol atau Risiko Kehilangannya
pasaran Keselamatan Wiki perisian Cerita dan Ulasan Teknologi
Amaran Terakhir Edward Snowden kepada Pemaju Bitcoin: “Jadikan Privasi sebagai Keutamaan Tahap Protokol atau Risiko Kehilangannya
Semoga 10, 2024
Pudina Rangkaian Lapisan 2 Ethereum Dikuasakan Optimisme Untuk Melancarkan Mainnetnya Pada 15 Mei
Laporan Berita Teknologi
Pudina Rangkaian Lapisan 2 Ethereum Dikuasakan Optimisme Untuk Melancarkan Mainnetnya Pada 15 Mei
Semoga 10, 2024