Laporan berita SMW Teknologi
30 Mei 2023

GPT-4Kinerja pada Ujian Pengacara AS Bertentangan dengan Klaimnya

Singkatnya

Pemeriksaan GPT-4Kinerja 's pada Uniform Bar Exam menunjukkan adanya perbedaan antara estimasi dan kinerja aktual, menekankan pentingnya prosedur evaluasi yang transparan dan data yang dapat diakses.

OpenAI didorong untuk mengatasi perbedaan dan mengembangkan pendekatan evaluasi model AI yang lebih inklusif dan andal untuk mendapatkan kepercayaan dan memastikan kredibilitas.

Dalam pemeriksaan baru-baru ini GPT-4kinerjanya pada Ujian Uniform Bar (UBE), keraguan telah muncul tentang keakuratan OpenAIklaim tentang tingkat keberhasilan model. Bertentangan dengan pernyataan awal bahwa GPT-4 mengungguli 90% individu, temuan menunjukkan perbedaan yang signifikan antara perkiraan dan kinerja aktual dari model AI. Pengungkapan ini menekankan pentingnya prosedur evaluasi yang transparan dan data yang dapat diakses untuk memvalidasi klaim tersebut.

GPT-4Kinerja pada Ujian Pengacara AS Bertentangan dengan Klaimnya
@Midjourney

Pemeriksaan difokuskan pada berbagai faktor untuk memastikan kemampuan sebenarnya GPT-4. Pertama, itu analisis ujian bulan Februari di Illinois mengungkapkan hal itu GPT-4Skornya mendekati Persentil ke-90. Namun, diamati bahwa skor ini sangat dipengaruhi oleh para peserta ujian ulang yang sebelumnya gagal dalam ujian bulan Juli dan dengan demikian mendapat skor di bawah rata-rata keseluruhan.

Selanjutnya, hasil ujian Juli bertentangan OpenAIklaim, mengungkapkan hal itu GPT-4 hanya akan Mengungguli 68% orang dan 48% esai. GPT-4Performanya terhadap peserta yang baru pertama kali (tidak termasuk ujian ulang) dievaluasi pada persentil ke-63 ketika data resmi dari beberapa tes pada periode berbeda dipertimbangkan, dengan skor esai jauh lebih rendah pada persentil ke-41.

Perspektif tambahan diperoleh dengan memeriksa kinerja mereka yang lulus ujian, termasuk individu yang memiliki lisensi dan mereka yang menunggu lisensi. Dalam kasus ini, GPT-4Kinerja keseluruhannya berada di peringkat persentil ke-48, dan esainya bahkan lebih buruk lagi di persentil ke-15.

Meskipun temuan ini meresahkan, penting untuk mempertimbangkan kemungkinan kesalahan manusia dalam proses peninjauan. Penulis artikel menekankan pentingnya memahami sampel yang digunakan oleh peneliti untuk mengevaluasi GPT-4kinerjanya. Kurangnya data resmi, terutama dalam bentuk agregat, membuat perbandingan dan evaluasi persentil menjadi sulit. Menetapkan teknik evaluasi yang jelas dan mudah diakses sehingga dapat dievaluasi oleh seluruh pemangku kepentingan sangatlah penting.

Menanggapi kekhawatiran tersebut, OpenAI didesak untuk mengatasi perbedaan dan memberikan wawasan lebih lanjut ke dalam proses evaluasi. Transparansi dan keterbukaan sangat penting untuk mendapatkan kepercayaan dan memastikan kredibilitas model AI dalam domain berisiko tinggi seperti hukum.

Perlu dicatat bahwa artikel tersebut tidak membahas skor spesifik yang dicapai oleh GPT-4, yang dilaporkan sebesar 298. Mengevaluasi signifikansi skor ini memerlukan pemahaman kontekstual terhadap sistem penilaian yang digunakan. Sama seperti seorang anak yang pulang dari sekolah dengan nilai B bisa menjadi penyebab perayaan atau kekecewaan, interpretasi dari hal tersebut GPT-4Skornya tergantung pada skala yang digunakan.

Penilaian GPT-4kinerjanya pada ujian pengacara menimbulkan kekhawatiran serius tentang kebenaran dari OpenAIpernyataan awal. Kesenjangan antara perkiraan dan kinerja aktual menekankan pentingnya sistem evaluasi yang jelas dan data yang mudah diakses. OpenAI didorong untuk mengatasi tantangan ini dan mengembangkan sistem yang lebih inklusif dan pendekatan yang dapat diandalkan untuk AI evaluasi model.

Baca lebih lanjut tentang AI:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

lebih artikel
Damir Yalalov
Damir Yalalov

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

Hari Hukuman Tiba: Nasib CZ Digantung Saat Pengadilan AS Mempertimbangkan Permohonan DOJ

Changpeng Zhao siap menghadapi hukuman di pengadilan AS di Seattle hari ini.

Tahu lebih banyak

Pendiri Dompet Samourai Dituduh Memfasilitasi $2 Miliar dalam Penawaran Darknet

Kekhawatiran para pendiri Samourai Wallet menunjukkan kemunduran besar bagi industri ini, yang menggarisbawahi ...

Tahu lebih banyak
Bergabunglah dengan Komunitas Teknologi Inovatif Kami
Baca Selengkapnya
Baca lebih lanjut
Chainlink Dan Rapid Addition Berkolaborasi Untuk Mengembangkan Adaptor Blockchain Berbasis CCIP
Bisnis Laporan berita Teknologi
Chainlink Dan Rapid Addition Berkolaborasi Untuk Mengembangkan Adaptor Blockchain Berbasis CCIP
1 Mei 2024
BitSmiley Meluncurkan Alphanet V1, Debut di Jaringan Bitcoin Layer 2 Bitlayer
Laporan berita Teknologi
BitSmiley Meluncurkan Alphanet V1, Debut di Jaringan Bitcoin Layer 2 Bitlayer
1 Mei 2024
April 2024 Melihat Tingkat Rendah Peretasan dan Penipuan dalam Sejarah, CertiK Melaporkan Penurunan 141% dari Bulan Maret
pasar Security Wiki Cerita dan Ulasan Teknologi
April 2024 Melihat Tingkat Rendah Peretasan dan Penipuan dalam Sejarah, CertiK Melaporkan Penurunan 141% dari Bulan Maret
1 Mei 2024
Harga Bitcoin Turun Menjelang Pengumuman Keputusan Suku Bunga Federal Reserve, Analis Memperingatkan Potensi Pergeseran Pasar
pasar Laporan berita Teknologi
Harga Bitcoin Turun Menjelang Pengumuman Keputusan Suku Bunga Federal Reserve, Analis Memperingatkan Potensi Pergeseran Pasar
1 Mei 2024