Julai 20, 2023

Kajian Stanford mengesahkan GPT-4 Semakin Bodoh

Diterbitkan: 20 Julai 2023 pada 10:19 pagi Dikemas kini: 20 Julai 2023 pada 10:20 pagi

Disunting dan disemak fakta: 20 Julai 2023 jam 10:19 pagi

Secara ringkas

Kajian oleh Matei Zaharia dan pasukannya dari Stanford dan UC Berkeley membandingkan prestasi GPT-4 and ChatGPT untuk menangani kebimbangan pengguna tentang keberkesanan model.

Kajian itu menilai model pada empat tugas khusus: matematik, pengekodan, kepekaan, dan penaakulan visual.

Matei Zaharia dan pasukannya dari Stanford dan UC Berkeley menjalankan kajian yang membandingkan prestasi GPT-4 kepada ChatGPT. Penyiasatan ini bertujuan untuk menangani kebimbangan pengguna bahawa keberkesanan model telah berkurangan.

Kajian Stanford mengesahkan GPT-4 Semakin Bodoh — Kredit: Metaverse Post

Berkaitan: GPT-4 vs GPT-3: Apakah yang Ditawarkan oleh Model Baharu?

Para penyelidik mereka bentuk kajian untuk menilai model pada empat tugas tertentu. Tugas-tugas ini termasuk:

Matematik: Keupayaan model untuk menentukan sama ada nombor tertentu adalah perdana atau komposit.
Pengekodan: Menilai keupayaan model untuk menjana kod yang bermakna dan berfungsi.
Kepekaan: Menganalisis tindak balas model kepada soalan dengan kandungan yang berpotensi "toksik".
Penaakulan Visual: Menguji kebolehan model untuk menyelesaikan masalah yang melibatkan corak visual, menggunakan penanda aras ARC. Peserta perlu mengenal pasti corak dalam satu set imej dan menggunakannya untuk menyelesaikan contoh baharu.

Dalam bidang matematik, kedua-duanya GPT-4 versi, keluaran Mac dan Jun, mempamerkan ketepatan yang konsisten dalam menentukan nombor perdana dan komposit. Model tersebut menunjukkan kecekapan dalam mengendalikan pengiraan ini, memberikan hasil yang boleh dipercayai.

Beralih kepada pengekodan, GPT-4 mempamerkan keupayaan yang lebih baik untuk menjana kod yang bermakna dan berfungsi berbanding dengan pendahulunya. Keupayaan penjanaan kod model menunjukkan janji, menawarkan potensi manfaat untuk pembangun dan pengaturcara.

Berkenaan sensitiviti, kajian menilai tindak balas model terhadap soalan yang mengandungi kandungan yang berpotensi berbahaya atau menyinggung perasaan. GPT-4 menunjukkan analisis sensitiviti yang dipertingkatkan dan menunjukkan keupayaan yang lebih baik untuk memberikan respons yang sesuai dalam konteks sedemikian. Ini menandakan langkah ke hadapan yang positif dalam menangani kebimbangan pengguna tentang output yang berpotensi bermasalah.

Akhir sekali, tugasan penaakulan visual berdasarkan penanda aras ARC telah berjaya diselesaikan oleh kedua-duanya GPT-4 versi. Model mengenal pasti corak secara berkesan dalam set imej dan menunjukkan keupayaan untuk menggunakan corak ini untuk menyelesaikan contoh baharu. Ini mempamerkan keupayaan mereka untuk pemahaman visual dan penaakulan.

Hasil kajian menunjukkan bahawa GPT-4 menunjukkan penurunan dalam ketepatan, dengan hanya lebih sedikit daripada 2% daripada jawapan yang betul. Adalah penting untuk ambil perhatian bahawa ujian khusus ini menilai keupayaan model untuk mengingat semula data dan bukannya mempamerkan kebolehan matematik yang wujud. Tugas ini berkisar pada ingatan ingatan, kerana model tidak mempunyai keupayaan untuk pengesahan dan inferens pengiraan, terutamanya apabila ia melibatkan nombor perdana.

ChatGPT menunjukkan pertumbuhan besar dalam metrik prestasi menjelang Jun, mempamerkan peningkatan yang luar biasa lebih sepuluh kali ganda. Walaupun kajian itu tidak menyelidiki faktor khusus yang menyumbang kepada peningkatan ini, ia menyerlahkan ChatGPTkemajuan dalam penaakulan matematik dan keupayaan menyelesaikan masalah.

Kajian itu tidak menilai kualiti atau ketepatan kod yang dihasilkan. Sebaliknya, model tersebut kelihatan mempamerkan gelagat yang lebih "tersuai", menawarkan coretan kod tanpa memastikan ketepatan fungsinya.

Berkaitan: 10+ Penambah Foto AI Terbaik pada tahun 2023

Kualiti GPT-4 and ChatGPT telah dipersoalkan selepas analisis kebolehan pengaturcaraan mereka. Walau bagaimanapun, pandangan yang lebih dekat mendedahkan beberapa nuansa menarik yang bercanggah dengan tanggapan pertama.

Pengarang tidak melaksanakan atau mengesahkan kod untuk ketepatan; penilaian mereka adalah semata-mata berdasarkan kesahihannya sebagai kod Python. Selain itu, model tersebut nampaknya telah mempelajari teknik pembingkaian kod tertentu menggunakan penghias, yang secara tidak sengaja menghalang pelaksanaan kod.

Akibatnya, menjadi jelas bahawa hasil mahupun eksperimen itu sendiri tidak boleh dianggap sebagai bukti kemerosotan model. Sebaliknya, model menunjukkan pendekatan yang berbeza untuk menjana respons, yang berpotensi mencerminkan variasi dalam latihan mereka.

Pemeriksaan terhadap kebolehan pengaturcaraan dan matematik bagi GPT-4 and ChatGPT telah menjelaskan penemuan yang menarik. Bertentangan dengan andaian awal, model tersebut menunjukkan peningkatan ketara dalam bidang tertentu sambil mempamerkan perubahan tingkah laku pada yang lain.

Apabila ia datang kepada tugas pengaturcaraan, kedua-dua model menunjukkan penurunan dalam membalas gesaan "salah", dengan GPT-4 menunjukkan pengurangan lebih daripada empat kali ganda dalam keadaan sedemikian. Selain itu, pada tugas Penaakulan Visual, kualiti respons bertambah baik dengan beberapa mata peratusan untuk kedua-dua model. Pemerhatian ini menunjukkan kemajuan dan bukannya kemerosotan dalam prestasi.

Walau bagaimanapun, penilaian kemahiran matematik memperkenalkan elemen yang menarik. Model secara konsisten memberikan nombor perdana sebagai jawapan, menunjukkan tindak balas "ya" yang konsisten. Namun, setelah memperkenalkan nombor komposit kepada sampel, ternyata model tersebut mengubah tingkah laku mereka dan mula memberikan respons "tidak", mencadangkan ketidakpastian dan bukannya penurunan kualiti. Ujian itu sendiri adalah pelik dan berat sebelah, dan keputusannya boleh dikaitkan dengan perubahan dalam tingkah laku model dan bukannya penurunan kualiti.

Adalah penting untuk ambil perhatian bahawa versi API telah diuji, dan bukan versi berasaskan penyemak imbas. Walaupun ada kemungkinan model dalam penyemak imbas menjalani pelarasan untuk mengoptimumkan sumber, kajian yang dilampirkan tidak defimembuktikan hipotesis ini secara nitif. Kesan peralihan sedemikian boleh dibandingkan dengan penurunan taraf model sebenar, yang membawa kepada potensi cabaran untuk pengguna yang bergantung pada kerja tertentu ganjaran dan pengalaman terkumpul.

Dalam kes GPT-4 Aplikasi API, penyimpangan dalam tingkah laku ini boleh mempunyai akibat yang ketara. Kod yang dibangunkan berdasarkan keperluan dan tugas pengguna tertentu mungkin tidak lagi berfungsi seperti yang dimaksudkan jika model mengalami perubahan dalam kelakuannya.

Adalah disyorkan bahawa pengguna memasukkan amalan ujian yang serupa ke dalam aliran kerja mereka. Dengan mencipta satu set gesaan, teks yang disertakan dan hasil yang dijangkakan, pengguna boleh menyemak secara kerap untuk keselarasan antara jangkaan mereka dan respons model. Sebaik sahaja sebarang penyelewengan dikesan, langkah-langkah yang sesuai boleh diambil untuk membetulkan keadaan.

Baca lebih lanjut mengenai AI:

Tags:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.

lebih banyak artikel

Damir Yalalov