Studi Stanford Dikonfirmasi GPT-4 Semakin Bodoh
Singkatnya
Sebuah studi oleh Matei Zaharia dan timnya dari Stanford dan UC Berkeley membandingkan kinerja GPT-4 dan ChatGPT untuk mengatasi kekhawatiran pengguna tentang efektivitas model.
Studi ini mengevaluasi model pada empat tugas khusus: matematika, pengkodean, kepekaan, dan penalaran visual.
Matei Zaharia dan timnya dari Stanford dan UC Berkeley melakukan sebuah penelitian yang membandingkan kinerja GPT-4 untuk ChatGPT. Investigasi ini berupaya mengatasi kekhawatiran pengguna bahwa efektivitas model telah berkurang.
Para peneliti merancang studi untuk mengevaluasi model pada empat tugas khusus. Tugas-tugas ini termasuk:
- Matematika: Kemampuan model untuk menentukan apakah suatu bilangan prima atau gabungan.
- Coding: Menilai kemampuan model untuk menghasilkan kode yang bermakna dan fungsional.
- Sensitivitas: Menganalisis respons model terhadap pertanyaan dengan konten yang berpotensi "beracun".
- Penalaran Visual: Menguji kemampuan model untuk memecahkan masalah yang melibatkan pola visual, menggunakan tolok ukur ARC. Peserta harus mengidentifikasi pola dalam satu set gambar dan menerapkannya untuk memecahkan contoh baru.
Di bidang matematika, keduanya GPT-4 versi, rilis bulan Maret dan Juni, menunjukkan akurasi yang konsisten dalam menentukan bilangan prima dan komposit. Model tersebut menunjukkan kemahiran dalam menangani penghitungan ini, sehingga memberikan hasil yang dapat diandalkan.
Pindah ke pengkodean, GPT-4 menunjukkan peningkatan kemampuan untuk menghasilkan kode yang bermakna dan fungsional dibandingkan pendahulunya. Kemampuan pembuatan kode model ini menjanjikan, menawarkan manfaat potensial bagi pengembang dan pemrogram.
Mengenai sensitivitas, penelitian ini menilai tanggapan model terhadap pertanyaan yang mengandung konten yang berpotensi membahayakan atau menyinggung. GPT-4 menunjukkan peningkatan analisis sensitivitas dan menunjukkan peningkatan kemampuan untuk memberikan tanggapan yang tepat dalam konteks tersebut. Hal ini menandakan langkah maju yang positif dalam mengatasi kekhawatiran pengguna mengenai potensi keluaran yang bermasalah.
Terakhir, tugas penalaran visual berdasarkan benchmark ARC berhasil diselesaikan oleh keduanya GPT-4 versi. Model tersebut secara efektif mengidentifikasi pola dalam kumpulan gambar dan menunjukkan kemampuan untuk menerapkan pola ini untuk memecahkan contoh baru. Ini menunjukkan kapasitas mereka untuk pemahaman dan penalaran visual.
ChatGPT menunjukkan pertumbuhan substansial dalam metrik kinerja pada bulan Juni, menunjukkan peningkatan luar biasa lebih dari sepuluh kali lipat. Meskipun penelitian ini tidak menyelidiki faktor-faktor spesifik yang berkontribusi terhadap peningkatan ini, penelitian ini menyorotinya ChatGPTkemajuan dalam penalaran matematis dan kemampuan pemecahan masalah.
Kualitas dari GPT-4 dan ChatGPT telah dipertanyakan setelah analisis kemampuan pemrograman mereka. Namun, jika dilihat lebih dekat, terungkap beberapa nuansa menarik yang bertentangan dengan kesan pertama.
Penulis tidak mengeksekusi atau memverifikasi kode untuk kebenaran; penilaian mereka semata-mata didasarkan pada validitasnya sebagai kode Python. Selain itu, model tampaknya telah mempelajari teknik pembingkaian kode khusus menggunakan dekorator, yang secara tidak sengaja menghambat eksekusi kode.
Akibatnya, menjadi jelas bahwa baik hasil maupun eksperimen itu sendiri tidak dapat dianggap sebagai bukti degradasi model. Sebaliknya, model menunjukkan pendekatan yang berbeda untuk menghasilkan respons, yang berpotensi mencerminkan variasi dalam pelatihan mereka.
Dalam hal tugas pemrograman, kedua model menunjukkan penurunan respons terhadap perintah yang “salah”. GPT-4 menunjukkan penurunan lebih dari empat kali lipat dalam kasus-kasus tersebut. Selain itu, pada tugas Penalaran Visual, kualitas respons meningkat beberapa poin persentase untuk kedua model. Pengamatan ini menunjukkan kemajuan dibandingkan penurunan kinerja.
Namun, penilaian keterampilan matematika memperkenalkan elemen yang menarik. Model secara konsisten memberikan bilangan prima sebagai jawaban, yang menunjukkan jawaban "ya" yang konsisten. Namun, setelah memasukkan angka komposit ke dalam sampel, menjadi jelas bahwa model tersebut mengubah perilakunya dan mulai memberikan tanggapan "tidak", yang menunjukkan ketidakpastian daripada penurunan kualitas. Tes itu sendiri aneh dan sepihak, dan hasilnya dapat dikaitkan dengan pergeseran perilaku model daripada penurunan kualitas.
Penting untuk diperhatikan bahwa versi APIlah yang diuji, dan bukan versi berbasis browser. Meskipun ada kemungkinan bahwa model di browser mengalami penyesuaian untuk mengoptimalkan sumber daya, studi terlampir tidak defibuktikan hipotesis ini dengan jelas. Dampak dari perubahan tersebut dapat dibandingkan dengan penurunan versi model sebenarnya, sehingga menimbulkan potensi tantangan bagi pengguna yang mengandalkan pekerjaan tertentu meminta dan akumulasi pengalaman.
Dalam kasus GPT-4 Dalam penerapan API, penyimpangan perilaku ini dapat menimbulkan konsekuensi nyata. Kode yang dikembangkan berdasarkan kebutuhan dan tugas pengguna tertentu mungkin tidak lagi berfungsi sebagaimana mestinya jika model mengalami perubahan perilaku.
Disarankan agar pengguna memasukkan praktik pengujian serupa ke dalam alur kerja mereka. Dengan membuat serangkaian petunjuk, teks yang menyertai, dan hasil yang diharapkan, pengguna dapat secara teratur memeriksa konsistensi antara harapan mereka dan respons model. Segera setelah setiap penyimpangan terdeteksi, tindakan yang tepat dapat diambil untuk memperbaiki situasi.
Baca lebih lanjut tentang AI:
Penolakan tanggung jawab
Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.
Tentang Penulis
Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.
lebih artikelDamir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.