Laporan Berita SMW Teknologi
Semoga 30, 2023

GPT-4Prestasi Peperiksaan Bar AS Bercanggah dengan Tuntutannya

Secara ringkas

Pemeriksaan terhadap GPT-4Prestasi pada Peperiksaan Bar Uniform mendedahkan percanggahan antara anggaran dan prestasi sebenar, menekankan kepentingan prosedur penilaian yang telus dan data yang boleh diakses.

OpenAI digalakkan untuk menangani percanggahan dan membangunkan pendekatan yang lebih inklusif dan boleh dipercayai untuk penilaian model AI untuk mendapatkan kepercayaan dan memastikan kredibiliti.

Dalam peperiksaan baru-baru ini GPT-4prestasi dalam Peperiksaan Bar Pakaian Seragam (EBU), keraguan telah timbul tentang ketepatan OpenAIdakwaan mengenai kadar kejayaan model. Bertentangan dengan penegasan awal bahawa GPT-4 mengatasi 90% individu, penemuan mencadangkan percanggahan yang ketara antara anggaran dan prestasi sebenar model AI. Pendedahan ini menekankan kepentingan prosedur penilaian yang telus dan data yang boleh diakses untuk mengesahkan tuntutan tersebut.

GPT-4Prestasi Peperiksaan Bar AS Bercanggah dengan Tuntutannya
@Midjourney

Peperiksaan tertumpu kepada pelbagai faktor untuk memastikan keupayaan sebenar GPT-4. Pertama, yang analisis daripada peperiksaan Februari di Illinois mendedahkan bahawa GPT-4Markah 's menghampiri Persentil ke-90. Walau bagaimanapun, diperhatikan bahawa markah ini banyak dipengaruhi oleh pengulangan yang sebelum ini gagal dalam peperiksaan Julai dan dengan itu mendapat markah di bawah purata keseluruhan.

Tambahan pula, keputusan peperiksaan Julai bercanggah OpenAIdakwaan, mendedahkan itu GPT-4 hanya akan Mengalahkan 68% orang dan 48% esei. GPT-4Prestasi terhadap peserta kali pertama (tidak termasuk ulangan) dinilai pada persentil ke-63 apabila data rasmi daripada beberapa ujian pada tempoh yang berbeza dipertimbangkan, dengan skor esei jauh lebih rendah pada persentil ke-41.

Perspektif tambahan diperoleh dengan meneliti prestasi mereka yang lulus peperiksaan, termasuk individu berlesen dan mereka yang menunggu pelesenan. Dalam hal ini, GPT-4Prestasi keseluruhan telah disenaraikan pada persentil ke-48, dengan esei lebih teruk pada persentil ke-15.

Walaupun penemuan ini membimbangkan, adalah penting untuk mempertimbangkan kemungkinan kesilapan manusia dalam proses semakan. Penulis artikel menekankan kepentingan memahami sampel yang digunakan oleh penyelidik untuk menilai GPT-4prestasi. Kekurangan data rasmi, terutamanya dalam bentuk agregat, menjadikan perbandingan dan penilaian yang adil bagi persentil sukar. Mewujudkan teknik penilaian yang jelas dan boleh diakses yang boleh dinilai oleh semua pihak berkepentingan adalah kritikal.

Sebagai tindak balas kepada kebimbangan ini, OpenAI digesa untuk menangani percanggahan dan memberikan pandangan lebih lanjut ke dalam proses penilaian. Ketelusan dan keterbukaan adalah penting untuk mendapatkan kepercayaan dan memastikan kredibiliti model AI dalam domain berkepentingan tinggi seperti undang-undang.

Perlu diingatkan bahawa artikel itu tidak membincangkan skor khusus yang dicapai oleh GPT-4, yang dilaporkan 298. Menilai kepentingan skor ini memerlukan pemahaman kontekstual sistem penggredan yang digunakan. Sama seperti kanak-kanak yang pulang dari sekolah dengan B boleh menjadi punca perayaan atau kekecewaan, tafsiran GPT-4Markah bergantung pada skala yang digunakan.

Penilaian mengenai GPT-4prestasi dalam peperiksaan bar menimbulkan kebimbangan yang serius tentang kebenaran OpenAIdakwaan awal. Jurang antara anggaran dan prestasi sebenar menekankan kepentingan sistem penilaian yang jelas dan data yang mudah diakses. OpenAI digalakkan untuk menangani cabaran ini dan membangunkan yang lebih inklusif dan pendekatan yang boleh dipercayai untuk AI penilaian model.

Baca lebih lanjut mengenai AI:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

lebih banyak artikel
Damir Yalalov
Damir Yalalov

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

Hari Penghukuman Tiba: Nasib CZ Bergantung Seimbang apabila Mahkamah AS Mempertimbangkan Rayuan DOJ

Changpeng Zhao bersedia untuk menghadapi hukuman di mahkamah AS di Seattle hari ini.

Mengetahui lebih lanjut

Pengasas Samourai Wallet Dituduh Memudahkan $2B dalam Tawaran Darknet

Kebimbangan pengasas Samourai Wallet mewakili kemunduran yang ketara bagi industri, menekankan ...

Mengetahui lebih lanjut
Sertai Komuniti Teknologi Inovatif Kami
Untuk Lebih Lanjut
Baca lagi
Chainlink Dan Penambahan Rapid Bekerjasama Untuk Membangunkan Penyesuai Rantaian Blok Berasaskan CCIP
Perniagaan Laporan Berita Teknologi
Chainlink Dan Penambahan Rapid Bekerjasama Untuk Membangunkan Penyesuai Rantaian Blok Berasaskan CCIP
Semoga 1, 2024
BitSmiley Melancarkan Alphanet V1, Debut Pada Bitcoin Layer 2 Network Bitlayer
Laporan Berita Teknologi
BitSmiley Melancarkan Alphanet V1, Debut Pada Bitcoin Layer 2 Network Bitlayer
Semoga 1, 2024
April 2024 Melihat Rendah Sejarah dalam Penggodaman dan Penipuan, CertiK Laporkan Penurunan 141% dari Mac
pasaran Keselamatan Wiki Cerita dan Ulasan Teknologi
April 2024 Melihat Rendah Sejarah dalam Penggodaman dan Penipuan, CertiK Laporkan Penurunan 141% dari Mac
Semoga 1, 2024
Harga Bitcoin Turun Menjelang Pengumuman Keputusan Kadar Faedah Rizab Persekutuan, Penganalisis Memberi Amaran Terhadap Potensi Peralihan Pasaran
pasaran Laporan Berita Teknologi
Harga Bitcoin Turun Menjelang Pengumuman Keputusan Kadar Faedah Rizab Persekutuan, Penganalisis Memberi Amaran Terhadap Potensi Peralihan Pasaran
Semoga 1, 2024