Laporan berita Teknologi
15 Maret, 2023

GPT-4 Mengungguli GPT-3.5 Secara Keseluruhan pada Berbagai Tolok Ukur Studi

Singkatnya

Grafik GPT-4 telah mencapai ambang batas nilai yang lebih tinggi dari GPT-3,5 pada berbagai tolok ukur.

Ini adalah pencapaian besar karena menunjukkan bahwa mesin tidak hanya mampu melakukan kecerdasan seperti manusia tetapi juga dapat mengungguli kita, yang menimbulkan pertanyaan tentang masa depan AI dan dampak potensialnya pada pasar kerja.

GPT-4 secara signifikan mengungguli model-model canggih (SOTA), termasuk model-model yang menggunakan protokol pelatihan tambahan atau desain khusus benchmark, serta model-model bahasa besar yang sudah ada.

Grafik GPT-4 telah mencapai skor lebih tinggi dari GPT-3,5 pada berbagai tolok ukur. Ini merupakan terobosan besar bagi mesin karena membuktikan bahwa mereka kini tidak hanya dapat memecahkan masalah yang awalnya dirancang tetapi juga dapat melakukannya lebih baik daripada mahasiswa.

GPT-4 mengungguli GPT-3,5 secara menyeluruh pada berbagai tolok ukur studi

Ada beberapa hal yang perlu dipertimbangkan ketika melihat hasil ini. Pertama, itu GPT-4 tidak diberikan pelatihan khusus untuk ujian ini. Hal ini dilanjutkan dengan menggunakan tes terbaru yang tersedia untuk umum (dalam kasus Olimpiade dan pertanyaan jawaban bebas AP) atau dengan membeli ujian praktik edisi 2022–2023. Kedua, penting untuk dicatat bahwa GPT-4Performa tes belum tentu mencerminkan kemampuan manusia yang melakukan tes, karena tes ini menggunakan serangkaian prinsip dan algoritma yang berbeda.

Ini adalah pencapaian besar sebagai itu menunjukkan bahwa mesin tidak hanya mampu memiliki kecerdasan seperti manusia tetapi juga dapat mengungguli kita. Ini membuka jalan bagi masa depan di mana mesin dapat melakukan tugas yang semakin kompleks, yang pada akhirnya mengarah ke masa depan di mana mereka dapat membantu kita dalam kehidupan kita sehari-hari.

Grafik GPT-4Kemampuan manusia untuk mengungguli manusia dalam tugas-tugas tertentu menimbulkan pertanyaan tentang masa depan kecerdasan buatan dan potensi dampaknya pada pasar kerja. Ini juga menyoroti perlunya penelitian dan pengembangan lanjutan di bidang ini untuk memastikan bahwa AI digunakan secara etis dan bertanggung jawab.
Baca lebih lanjut: 5+ Model AI Text-to-Image Paling Diantisipasi tahun 2023

GPT-4, misalnya, lulus simulasi ujian pengacara dengan skor 10% teratas dari peserta tes; GPT-3skor 5 berada di 10% terbawah. Peningkatan signifikan ini GPT-4Performanya disebabkan oleh data pelatihan yang lebih besar dan arsitektur yang ditingkatkan. Hal ini diharapkan memiliki beragam aplikasi di berbagai bidang, termasuk pemrosesan bahasa alami dan penulisan otomatis.

 
GPT-4 menunjukkan kinerja tingkat manusia pada sebagian besar ujian profesional dan akademik ini. Khususnya, ia lulus versi simulasi Ujian Uniform Bar dengan skor 10% teratas dari peserta tes. Kemampuan model dalam ujian tampaknya berasal dari proses pra-pelatihan dan tidak terpengaruh secara signifikan oleh RLHF. Pada soal pilihan ganda, keduanya merupakan soal dasar GPT-4 model dan model RLHF memiliki rata-rata kinerja yang sama baiknya di seluruh pengembang ujian yang diuji.

Sebagian besar model state-of-the-art (SOTA), termasuk yang mungkin menggunakan protokol pelatihan tambahan atau desain khusus tolok ukur, serta model besar yang sudah ada. model bahasa, secara signifikan dikalahkan oleh GPT-4.

GPT-4kinerjanya dalam hal standar akademik. Kontras dengan pengembang GPT-4 dengan SOTA terbaik untuk beberapa pengambilan gambar yang dievaluasi LM serta SOTA terbaik dengan pelatihan khusus benchmark. Kecuali DROP, GPT-4 mengungguli semua LM saat ini pada semua benchmark dan SOTA dengan pelatihan khusus benchmark.

Secara internal, pengembang telah memanfaatkan GPT-4, yang berdampak signifikan pada aktivitas seperti pemrograman, penjualan, dukungan, dan moderasi konten. Tahap kedua dari metode penyelarasan kami kini sedang berlangsung karena pengembang menggunakannya untuk membantu manusia dalam meninjau hasil AI.

Kumpulan data MMLU (Massive Multi-Task Language Understanding) berisi pertanyaan dari berbagai topik yang sangat luas tentang pemahaman bahasa dalam tugas yang berbeda (mencakup 57 domain, termasuk matematika, biologi, hukum, ilmu sosial dan manusia, dll.). Ada empat kemungkinan jawaban untuk pertanyaan itu, salah satunya adalah benar. Artinya, tebakan acak menunjukkan hasil 25% jawaban benar. Lihat gambar di bawah untuk contoh soal dan kesulitannya. Penanda orang rata-rata (yaitu, ini bukan ilmuwan, bukan profesor — orang biasa yang bekerja sambilan sebagai markup) menjawab dengan benar 35% pertanyaan; namun, para ahli dapat mencapai skor +/- 90%.

Penampilan dari GPT-4 dalam berbagai bahasa dibandingkan dengan model sebelumnya dalam bahasa Inggris di MMLU. GPT-4 melebihi kinerja bahasa Inggris dari model bahasa yang ada untuk sebagian besar bahasa yang diperiksa, termasuk bahasa dengan sumber daya rendah seperti Latvia, Welsh, dan Swahili.
Baca lebih lanjut: 5 Alasan Menggunakan Bing Bertenaga AI Di Google

Awalnya, seluruh kumpulan data dalam bahasa Inggris. Namun bagaimana jika pertanyaan dan jawaban diterjemahkan ke dalam bahasa lain, terutama bahasa yang kurang umum? Akankah model tersebut berhasil untuk mereka? Dalam pengujian ini, layanan Microsoft Azure Translate digunakan untuk terjemahan. Terjemahannya tidak sempurna; dalam beberapa kasus, informasi penting hilang. Namun, bahkan dalam kasus ini, GPT-4 berkinerja baik dalam bahasa lain. Dalam versi terjemahan MMLU, GPT-4 mengungguli tingkat bahasa Inggris model besar lainnya (termasuk Google) dalam 24 dari 26 bahasa yang diperiksa.

Apalagi, GPT-4 berkinerja lebih baik dalam bahasa yang langka dibandingkan ChatGPT melakukannya dalam bahasa Inggris (ChatGPT mencapai skor 70.1%, sedangkan skor model baru untuk bahasa Thailand adalah 71.8%). Nilai tes bahasa Inggris adalah yang tertinggi, dengan GPT-4 berkinerja 10% lebih baik dibandingkan model lainnya, termasuk PaLM terbesar dari Google. Skornya mencapai 86.4%, sedangkan kelompok ahli—90%.

  • Pada musim panas tahun 2023, AI mungkin telah mencapai tingkat kekuatan baru berkat teknologi tersebut ChatGPT, chatbot yang menggunakan GPT-4 algoritma dan mengungguli GPT-3 dengan faktor 570. Berbagai elemen berkontribusi ChatGPTkesuksesannya, termasuk desainnya yang lebih “mirip manusia” dan penggunaan penambangan data mutakhir serta pemrosesan bahasa alami untuk meningkatkan efektivitas dan akurasinya.
  • Microsoft dan OpenAI mengumumkan pembaruan kolaborasi mereka dan rencana pencarian Bing untuk mengadopsi kemampuan pencarian yang ditingkatkan AI pada bulan Januari. Yang sangat canggih GPT3.5 penggantian model, GPT4, baru saja diluncurkan, dan memiliki potensi untuk sangat meningkatkan kapasitas pencarian Bing untuk memahami permintaan bahasa alami dan memberikan hasil yang lebih akurat. Merupakan ide bagus untuk memiliki rencana cadangan yang baik jika terjadi kesalahan.

Baca berita terkait lainnya:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

lebih artikel
Damir Yalalov
Damir Yalalov

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

Selera Institusional Tumbuh Terhadap ETF Bitcoin Di Tengah Volatilitas

Pengungkapan melalui pengajuan 13F mengungkapkan investor institusi terkemuka yang mencoba-coba ETF Bitcoin, menggarisbawahi semakin besarnya penerimaan ...

Tahu lebih banyak

Hari Hukuman Tiba: Nasib CZ Digantung Saat Pengadilan AS Mempertimbangkan Permohonan DOJ

Changpeng Zhao siap menghadapi hukuman di pengadilan AS di Seattle hari ini.

Tahu lebih banyak
Bergabunglah dengan Komunitas Teknologi Inovatif Kami
Baca Selengkapnya
Baca lebih lanjut
Injective Bergabung Dengan AltLayer Untuk Membawa Keamanan Ulang ke inEVM
Bisnis Laporan berita Teknologi
Injective Bergabung Dengan AltLayer Untuk Membawa Keamanan Ulang ke inEVM
3 Mei 2024
Masa Bekerja Sama Dengan Teller Untuk Memperkenalkan MASA Lending Pool, Memungkinkan Pinjaman USDC Di Pangkalan
pasar Laporan berita Teknologi
Masa Bekerja Sama Dengan Teller Untuk Memperkenalkan MASA Lending Pool, Memungkinkan Pinjaman USDC Di Pangkalan
3 Mei 2024
Velodrome Meluncurkan Versi Beta Superchain Dalam Beberapa Minggu Mendatang Dan Memperluas Di Seluruh Blockchain OP Stack Layer 2
pasar Laporan berita Teknologi
Velodrome Meluncurkan Versi Beta Superchain Dalam Beberapa Minggu Mendatang Dan Memperluas Di Seluruh Blockchain OP Stack Layer 2
3 Mei 2024
CARV Mengumumkan Kemitraan Dengan Aethir Untuk Mendesentralisasikan Lapisan Datanya Dan Mendistribusikan Hadiah
Bisnis Laporan berita Teknologi
CARV Mengumumkan Kemitraan Dengan Aethir Untuk Mendesentralisasikan Lapisan Datanya Dan Mendistribusikan Hadiah
3 Mei 2024