GPT-4 Mengungguli GPT-3.5 Secara Keseluruhan pada Berbagai Tolok Ukur Studi
Singkatnya
Grafik GPT-4 telah mencapai ambang batas nilai yang lebih tinggi dari GPT-3,5 pada berbagai tolok ukur.
Ini adalah pencapaian besar karena menunjukkan bahwa mesin tidak hanya mampu melakukan kecerdasan seperti manusia tetapi juga dapat mengungguli kita, yang menimbulkan pertanyaan tentang masa depan AI dan dampak potensialnya pada pasar kerja.
GPT-4 secara signifikan mengungguli model-model canggih (SOTA), termasuk model-model yang menggunakan protokol pelatihan tambahan atau desain khusus benchmark, serta model-model bahasa besar yang sudah ada.
Grafik GPT-4 telah mencapai skor lebih tinggi dari GPT-3,5 pada berbagai tolok ukur. Ini merupakan terobosan besar bagi mesin karena membuktikan bahwa mereka kini tidak hanya dapat memecahkan masalah yang awalnya dirancang tetapi juga dapat melakukannya lebih baik daripada mahasiswa.
Ada beberapa hal yang perlu dipertimbangkan ketika melihat hasil ini. Pertama, itu GPT-4 tidak diberikan pelatihan khusus untuk ujian ini. Hal ini dilanjutkan dengan menggunakan tes terbaru yang tersedia untuk umum (dalam kasus Olimpiade dan pertanyaan jawaban bebas AP) atau dengan membeli ujian praktik edisi 2022–2023. Kedua, penting untuk dicatat bahwa GPT-4Performa tes belum tentu mencerminkan kemampuan manusia yang melakukan tes, karena tes ini menggunakan serangkaian prinsip dan algoritma yang berbeda.
Ini adalah pencapaian besar sebagai itu menunjukkan bahwa mesin tidak hanya mampu memiliki kecerdasan seperti manusia tetapi juga dapat mengungguli kita. Ini membuka jalan bagi masa depan di mana mesin dapat melakukan tugas yang semakin kompleks, yang pada akhirnya mengarah ke masa depan di mana mereka dapat membantu kita dalam kehidupan kita sehari-hari.
Baca lebih lanjut: 5+ Model AI Text-to-Image Paling Diantisipasi tahun 2023 |
GPT-4, misalnya, lulus simulasi ujian pengacara dengan skor 10% teratas dari peserta tes; GPT-3skor 5 berada di 10% terbawah. Peningkatan signifikan ini GPT-4Performanya disebabkan oleh data pelatihan yang lebih besar dan arsitektur yang ditingkatkan. Hal ini diharapkan memiliki beragam aplikasi di berbagai bidang, termasuk pemrosesan bahasa alami dan penulisan otomatis.
Sebagian besar model state-of-the-art (SOTA), termasuk yang mungkin menggunakan protokol pelatihan tambahan atau desain khusus tolok ukur, serta model besar yang sudah ada. model bahasa, secara signifikan dikalahkan oleh GPT-4.
Secara internal, pengembang telah memanfaatkan GPT-4, yang berdampak signifikan pada aktivitas seperti pemrograman, penjualan, dukungan, dan moderasi konten. Tahap kedua dari metode penyelarasan kami kini sedang berlangsung karena pengembang menggunakannya untuk membantu manusia dalam meninjau hasil AI.
Kumpulan data MMLU (Massive Multi-Task Language Understanding) berisi pertanyaan dari berbagai topik yang sangat luas tentang pemahaman bahasa dalam tugas yang berbeda (mencakup 57 domain, termasuk matematika, biologi, hukum, ilmu sosial dan manusia, dll.). Ada empat kemungkinan jawaban untuk pertanyaan itu, salah satunya adalah benar. Artinya, tebakan acak menunjukkan hasil 25% jawaban benar. Lihat gambar di bawah untuk contoh soal dan kesulitannya. Penanda orang rata-rata (yaitu, ini bukan ilmuwan, bukan profesor — orang biasa yang bekerja sambilan sebagai markup) menjawab dengan benar 35% pertanyaan; namun, para ahli dapat mencapai skor +/- 90%.
Baca lebih lanjut: 5 Alasan Menggunakan Bing Bertenaga AI Di Google |
Awalnya, seluruh kumpulan data dalam bahasa Inggris. Namun bagaimana jika pertanyaan dan jawaban diterjemahkan ke dalam bahasa lain, terutama bahasa yang kurang umum? Akankah model tersebut berhasil untuk mereka? Dalam pengujian ini, layanan Microsoft Azure Translate digunakan untuk terjemahan. Terjemahannya tidak sempurna; dalam beberapa kasus, informasi penting hilang. Namun, bahkan dalam kasus ini, GPT-4 berkinerja baik dalam bahasa lain. Dalam versi terjemahan MMLU, GPT-4 mengungguli tingkat bahasa Inggris model besar lainnya (termasuk Google) dalam 24 dari 26 bahasa yang diperiksa.
Apalagi, GPT-4 berkinerja lebih baik dalam bahasa yang langka dibandingkan ChatGPT melakukannya dalam bahasa Inggris (ChatGPT mencapai skor 70.1%, sedangkan skor model baru untuk bahasa Thailand adalah 71.8%). Nilai tes bahasa Inggris adalah yang tertinggi, dengan GPT-4 berkinerja 10% lebih baik dibandingkan model lainnya, termasuk PaLM terbesar dari Google. Skornya mencapai 86.4%, sedangkan kelompok ahli—90%.
- Pada musim panas tahun 2023, AI mungkin telah mencapai tingkat kekuatan baru berkat teknologi tersebut ChatGPT, chatbot yang menggunakan GPT-4 algoritma dan mengungguli GPT-3 dengan faktor 570. Berbagai elemen berkontribusi ChatGPTkesuksesannya, termasuk desainnya yang lebih “mirip manusia” dan penggunaan penambangan data mutakhir serta pemrosesan bahasa alami untuk meningkatkan efektivitas dan akurasinya.
- Microsoft dan OpenAI mengumumkan pembaruan kolaborasi mereka dan rencana pencarian Bing untuk mengadopsi kemampuan pencarian yang ditingkatkan AI pada bulan Januari. Yang sangat canggih GPT3.5 penggantian model, GPT4, baru saja diluncurkan, dan memiliki potensi untuk sangat meningkatkan kapasitas pencarian Bing untuk memahami permintaan bahasa alami dan memberikan hasil yang lebih akurat. Merupakan ide bagus untuk memiliki rencana cadangan yang baik jika terjadi kesalahan.
Baca berita terkait lainnya:
Penolakan tanggung jawab
Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.
Tentang Penulis
Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.
lebih artikelDamir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.