Laporan berita Teknologi
Juli 20, 2023

Studi Stanford Dikonfirmasi GPT-4 Semakin Bodoh

Singkatnya

Sebuah studi oleh Matei Zaharia dan timnya dari Stanford dan UC Berkeley membandingkan kinerja GPT-4 dan ChatGPT untuk mengatasi kekhawatiran pengguna tentang efektivitas model.

Studi ini mengevaluasi model pada empat tugas khusus: matematika, pengkodean, kepekaan, dan penalaran visual.

Matei Zaharia dan timnya dari Stanford dan UC Berkeley melakukan sebuah penelitian yang membandingkan kinerja GPT-4 untuk ChatGPT. Investigasi ini berupaya mengatasi kekhawatiran pengguna bahwa efektivitas model telah berkurang.

Studi Stanford Dikonfirmasi GPT-4 Semakin Bodoh
kredit: Metaverse Post
terkait: GPT-4 vs GPT-3: Apa yang Ditawarkan Model Baru ini?

Para peneliti merancang studi untuk mengevaluasi model pada empat tugas khusus. Tugas-tugas ini termasuk:

  • Matematika: Kemampuan model untuk menentukan apakah suatu bilangan prima atau gabungan.
  • Coding: Menilai kemampuan model untuk menghasilkan kode yang bermakna dan fungsional.
  • Sensitivitas: Menganalisis respons model terhadap pertanyaan dengan konten yang berpotensi "beracun".
  • Penalaran Visual: Menguji kemampuan model untuk memecahkan masalah yang melibatkan pola visual, menggunakan tolok ukur ARC. Peserta harus mengidentifikasi pola dalam satu set gambar dan menerapkannya untuk memecahkan contoh baru.

Di bidang matematika, keduanya GPT-4 versi, rilis bulan Maret dan Juni, menunjukkan akurasi yang konsisten dalam menentukan bilangan prima dan komposit. Model tersebut menunjukkan kemahiran dalam menangani penghitungan ini, sehingga memberikan hasil yang dapat diandalkan.

Pindah ke pengkodean, GPT-4 menunjukkan peningkatan kemampuan untuk menghasilkan kode yang bermakna dan fungsional dibandingkan pendahulunya. Kemampuan pembuatan kode model ini menjanjikan, menawarkan manfaat potensial bagi pengembang dan pemrogram.

Mengenai sensitivitas, penelitian ini menilai tanggapan model terhadap pertanyaan yang mengandung konten yang berpotensi membahayakan atau menyinggung. GPT-4 menunjukkan peningkatan analisis sensitivitas dan menunjukkan peningkatan kemampuan untuk memberikan tanggapan yang tepat dalam konteks tersebut. Hal ini menandakan langkah maju yang positif dalam mengatasi kekhawatiran pengguna mengenai potensi keluaran yang bermasalah.

Terakhir, tugas penalaran visual berdasarkan benchmark ARC berhasil diselesaikan oleh keduanya GPT-4 versi. Model tersebut secara efektif mengidentifikasi pola dalam kumpulan gambar dan menunjukkan kemampuan untuk menerapkan pola ini untuk memecahkan contoh baru. Ini menunjukkan kapasitas mereka untuk pemahaman dan penalaran visual.

Hasilnya menunjukkan bahwa GPT-4 menunjukkan penurunan akurasi, dengan hanya sedikit di atas 2% jawaban yang benar. Penting untuk dicatat bahwa tes khusus ini terutama menilai kapasitas model untuk mengingat data daripada menunjukkan kemampuan matematika bawaannya. Tugasnya berkisar pada mengingat kembali memori, karena model tersebut tidak memiliki kemampuan untuk validasi perhitungan dan inferensi, terutama jika menyangkut bilangan prima.

ChatGPT menunjukkan pertumbuhan substansial dalam metrik kinerja pada bulan Juni, menunjukkan peningkatan luar biasa lebih dari sepuluh kali lipat. Meskipun penelitian ini tidak menyelidiki faktor-faktor spesifik yang berkontribusi terhadap peningkatan ini, penelitian ini menyorotinya ChatGPTkemajuan dalam penalaran matematis dan kemampuan pemecahan masalah.

Studi ini tidak menilai kualitas atau kebenaran kode yang dihasilkan. Sebaliknya, model tersebut tampaknya menunjukkan perilaku yang lebih "khusus", menawarkan cuplikan kode tanpa memastikan keakuratan fungsionalnya.
terkait: 10+ Peningkat Foto AI Terbaik di tahun 2023

Kualitas dari GPT-4 dan ChatGPT telah dipertanyakan setelah analisis kemampuan pemrograman mereka. Namun, jika dilihat lebih dekat, terungkap beberapa nuansa menarik yang bertentangan dengan kesan pertama.

Penulis tidak mengeksekusi atau memverifikasi kode untuk kebenaran; penilaian mereka semata-mata didasarkan pada validitasnya sebagai kode Python. Selain itu, model tampaknya telah mempelajari teknik pembingkaian kode khusus menggunakan dekorator, yang secara tidak sengaja menghambat eksekusi kode.

Akibatnya, menjadi jelas bahwa baik hasil maupun eksperimen itu sendiri tidak dapat dianggap sebagai bukti degradasi model. Sebaliknya, model menunjukkan pendekatan yang berbeda untuk menghasilkan respons, yang berpotensi mencerminkan variasi dalam pelatihan mereka.

Pemeriksaan kemampuan pemrograman dan matematika GPT-4 dan ChatGPT telah menjelaskan temuan menarik. Bertentangan dengan asumsi awal, model ini menunjukkan peningkatan yang signifikan di bidang tertentu dan juga menunjukkan perubahan perilaku di bidang lain.

Dalam hal tugas pemrograman, kedua model menunjukkan penurunan respons terhadap perintah yang “salah”. GPT-4 menunjukkan penurunan lebih dari empat kali lipat dalam kasus-kasus tersebut. Selain itu, pada tugas Penalaran Visual, kualitas respons meningkat beberapa poin persentase untuk kedua model. Pengamatan ini menunjukkan kemajuan dibandingkan penurunan kinerja.

Namun, penilaian keterampilan matematika memperkenalkan elemen yang menarik. Model secara konsisten memberikan bilangan prima sebagai jawaban, yang menunjukkan jawaban "ya" yang konsisten. Namun, setelah memasukkan angka komposit ke dalam sampel, menjadi jelas bahwa model tersebut mengubah perilakunya dan mulai memberikan tanggapan "tidak", yang menunjukkan ketidakpastian daripada penurunan kualitas. Tes itu sendiri aneh dan sepihak, dan hasilnya dapat dikaitkan dengan pergeseran perilaku model daripada penurunan kualitas.

Penting untuk diperhatikan bahwa versi APIlah yang diuji, dan bukan versi berbasis browser. Meskipun ada kemungkinan bahwa model di browser mengalami penyesuaian untuk mengoptimalkan sumber daya, studi terlampir tidak defibuktikan hipotesis ini dengan jelas. Dampak dari perubahan tersebut dapat dibandingkan dengan penurunan versi model sebenarnya, sehingga menimbulkan potensi tantangan bagi pengguna yang mengandalkan pekerjaan tertentu meminta dan akumulasi pengalaman.

Dalam kasus GPT-4 Dalam penerapan API, penyimpangan perilaku ini dapat menimbulkan konsekuensi nyata. Kode yang dikembangkan berdasarkan kebutuhan dan tugas pengguna tertentu mungkin tidak lagi berfungsi sebagaimana mestinya jika model mengalami perubahan perilaku.

Disarankan agar pengguna memasukkan praktik pengujian serupa ke dalam alur kerja mereka. Dengan membuat serangkaian petunjuk, teks yang menyertai, dan hasil yang diharapkan, pengguna dapat secara teratur memeriksa konsistensi antara harapan mereka dan respons model. Segera setelah setiap penyimpangan terdeteksi, tindakan yang tepat dapat diambil untuk memperbaiki situasi.

Baca lebih lanjut tentang AI:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

lebih artikel
Damir Yalalov
Damir Yalalov

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

Hot Stories
Bergabunglah dengan Buletin Kami.
Berita Terkini

Selera Institusional Tumbuh Terhadap ETF Bitcoin Di Tengah Volatilitas

Pengungkapan melalui pengajuan 13F mengungkapkan investor institusi terkemuka yang mencoba-coba ETF Bitcoin, menggarisbawahi semakin besarnya penerimaan ...

Tahu lebih banyak

Hari Hukuman Tiba: Nasib CZ Digantung Saat Pengadilan AS Mempertimbangkan Permohonan DOJ

Changpeng Zhao siap menghadapi hukuman di pengadilan AS di Seattle hari ini.

Tahu lebih banyak
Bergabunglah dengan Komunitas Teknologi Inovatif Kami
Baca Selengkapnya
Baca lebih lanjut
Nexo Memulai 'Perburuan' Untuk Menghadiahi Pengguna Token NEXO senilai $12 Juta Karena Terlibat dengan Ekosistemnya
pasar Laporan berita Teknologi
Nexo Memulai 'Perburuan' Untuk Menghadiahi Pengguna Token NEXO senilai $12 Juta Karena Terlibat dengan Ekosistemnya
8 Mei 2024
Pertukaran Revolut X Revolut Membujuk Pedagang Kripto dengan Tanpa Biaya Pembuat, dan Analisis Tingkat Lanjut
pasar Perangkat lunak Cerita dan Ulasan Teknologi
Pertukaran Revolut X Revolut Membujuk Pedagang Kripto dengan Tanpa Biaya Pembuat, dan Analisis Tingkat Lanjut
8 Mei 2024
Platform Perdagangan Kripto BitMEX Memulai Perdagangan Opsi Dengan 0 Biaya Dan Insentif Tunai
Bisnis pasar Laporan berita
Platform Perdagangan Kripto BitMEX Memulai Perdagangan Opsi Dengan 0 Biaya Dan Insentif Tunai
8 Mei 2024
Lisk Secara Resmi Bertransisi Ke Ethereum Layer 2 Dan Meluncurkan Core v4.0.6
Laporan berita Teknologi
Lisk Secara Resmi Bertransisi Ke Ethereum Layer 2 Dan Meluncurkan Core v4.0.6
8 Mei 2024