OpenAI Mengumumkan Evaluasi, Kerangka Perangkat Lunak Sumber Terbuka untuk Mengevaluasi Model AI
Singkatnya
OpenAI berharap untuk melakukan crowdsourcing tolok ukur untuk mengevaluasi model AI seperti GPT-4.
Perusahaan pemrosesan pembayaran, Stripe, telah menggunakan Evals untuk mengukur keakuratannya GPTalat dokumentasi bertenaga.
OpenAI akan memberikan GPT-4 akses untuk waktu terbatas bagi mereka yang memberikan kontribusi evaluasi berkualitas tinggi.
Bersamaan dengan pengumuman GPT-4, OpenAI telah mengumumkan kerangka perangkat lunak sumber terbuka OpenAI Evaluasi. Alat ini dirancang untuk membuat dan menjalankan tolok ukur yang mengevaluasi kinerja model sejenis GPT-4. Dengan Eva, OpenAI berharap untuk melakukan crowdsourcing benchmark untuk pengujian model AI.
“Kami menggunakan Evaluasi untuk memandu pengembangan model kami (baik mengidentifikasi kekurangan dan mencegah regresi), dan pengguna kami dapat menerapkannya untuk melacak kinerja di seluruh versi model (yang sekarang akan keluar secara teratur) dan mengembangkan integrasi produk,” perusahaan menjelaskan dalam A posting blog.
Stripe, sebuah perusahaan pemrosesan pembayaran populer, telah menggunakan Evals untuk melengkapi evaluasi manusia dan mengukur keakuratannya GPTalat dokumentasi bertenaga.
Pengembang dapat menggunakan Evaluasi untuk membuat dan menjalankan evaluasi yang:
- Gunakan kumpulan data untuk menghasilkan prompt,
- Ukur kualitas penyelesaian yang diberikan oleh sebuah OpenAI model, dan
- Bandingkan performa di berbagai kumpulan data dan model.
Dengan kode sumber terbuka, pengembang juga dapat menulis dan menambahkan Evaluasi kustom dan juga beberapa template yang dapat mengakomodasi tolok ukur yang berbeda. Perusahaan telah menyertakan templat yang paling berguna secara internal, termasuk templat untuk “eval penilaian model,” yang GPT-4 dapat digunakan untuk memeriksa pekerjaannya sendiri. Sebagai contoh untuk diikuti, perusahaan telah membuat eval teka-teki logika yang berisi sepuluh petunjuk di mana GPT-4 gagal
Evaluasi juga kompatibel dengan penerapan tolok ukur yang ada, termasuk beberapa buku catatan yang menerapkan tolok ukur akademik dan beberapa variasi pengintegrasian himpunan bagian kecil dari CoQA.
Meskipun pengembang tidak akan dibayar untuk kontribusi Evals, OpenAI akan memberikan GPT-4 akses untuk waktu terbatas bagi mereka yang memberikan kontribusi “evaluasi berkualitas tinggi.”
Pengumuman Evals muncul setelahnya OpenAI baru-baru ini mengatakan itu akan berhenti menggunakan data yang dikirimkan oleh pelanggan melalui API-nya untuk melatih atau meningkatkan modelnya kecuali pelanggan memutuskan untuk memilih. -art model” untuknya DynaBench platform.
Baca lebih lanjut:
Penolakan tanggung jawab
Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.
Tentang Penulis
Cindy adalah seorang jurnalis di Metaverse Post, mencakup topik yang terkait dengan web3, NFT, metaverse dan AI, dengan fokus pada wawancara dengan Web3 pelaku industri. Dia telah berbicara dengan lebih dari 30 eksekutif tingkat C dan terus bertambah, menyampaikan wawasan berharga mereka kepada pembaca. Berasal dari Singapura, Cindy kini tinggal di Tbilisi, Georgia. Beliau meraih gelar Sarjana Komunikasi & Studi Media dari University of South Australia dan memiliki pengalaman satu dekade di bidang jurnalisme dan penulisan. Hubungi dia melalui [email dilindungi] dengan pitches pers, pengumuman dan peluang wawancara.
lebih artikelCindy adalah seorang jurnalis di Metaverse Post, mencakup topik yang terkait dengan web3, NFT, metaverse dan AI, dengan fokus pada wawancara dengan Web3 pelaku industri. Dia telah berbicara dengan lebih dari 30 eksekutif tingkat C dan terus bertambah, menyampaikan wawasan berharga mereka kepada pembaca. Berasal dari Singapura, Cindy kini tinggal di Tbilisi, Georgia. Beliau meraih gelar Sarjana Komunikasi & Studi Media dari University of South Australia dan memiliki pengalaman satu dekade di bidang jurnalisme dan penulisan. Hubungi dia melalui [email dilindungi] dengan pitches pers, pengumuman dan peluang wawancara.