Laporan Berita Teknologi
Mac 15, 2023

GPT-4 Lebih cemerlang GPT-3.5 Merentas Papan pada Pelbagai Penanda Aras Kajian

Secara ringkas

. GPT-4 telah mencapai ambang gred yang lebih tinggi daripada GPT-3.5 pada pelbagai penanda aras.

Ini merupakan pencapaian besar kerana ia menunjukkan bahawa mesin bukan sahaja mampu kecerdasan seperti manusia tetapi juga boleh mengatasi prestasi kita, yang menimbulkan persoalan tentang masa depan AI dan potensi kesannya terhadap pasaran kerja.

GPT-4 diungguli dengan ketara oleh model terkini (SOTA), termasuk yang menggunakan protokol latihan tambahan atau reka bentuk khusus penanda aras, serta model bahasa besar sedia ada.

. GPT-4 telah mencapai markah yang lebih tinggi daripada GPT-3.5 pada pelbagai penanda aras. Ini adalah satu kejayaan besar untuk mesin kerana ia membuktikan bahawa mereka kini bukan sahaja boleh menyelesaikan masalah yang pada asalnya direka untuk tetapi juga boleh melakukannya dengan lebih baik daripada pelajar universiti.

GPT-4 outperforms GPT-3.5 merentas papan pada pelbagai tanda aras kajian

Terdapat beberapa perkara yang perlu diambil kira semasa melihat hasil ini. Pertama, yang GPT-4 tidak diberi latihan khusus untuk peperiksaan ini. Ia diteruskan dengan menggunakan ujian terkini yang tersedia secara terbuka (dalam kes soalan jawapan percuma Olympiads dan AP) atau dengan membeli peperiksaan latihan edisi 2022–2023. Kedua, adalah penting untuk diperhatikan bahawa GPT-4Prestasi mungkin tidak semestinya mencerminkan kebolehan pengambil ujian manusia, kerana ia beroperasi pada set prinsip dan algoritma yang berbeza.

Ini adalah satu pencapaian besar sebagai ia menunjukkan bahawa mesin bukan sahaja mampu kecerdasan seperti manusia tetapi juga boleh mengatasi kita. Ini membuka jalan untuk masa depan di mana mesin boleh menjalankan tugas yang lebih kompleks, akhirnya membawa kepada masa depan di mana ia boleh membantu kita dalam kehidupan seharian kita.

. GPT-4keupayaan untuk mengatasi manusia dalam tugas tertentu menimbulkan persoalan tentang masa depan kecerdasan buatan dan potensi kesannya terhadap pasaran kerja. Ia juga menyerlahkan keperluan untuk penyelidikan dan pembangunan berterusan dalam bidang ini untuk memastikan AI digunakan secara beretika dan bertanggungjawab.
Baca lebih lanjut: 5+ Model AI Teks-ke-Imej Paling Dinantikan pada 2023

GPT-4, sebagai contoh, lulus peperiksaan bar simulasi dengan markah dalam 10% teratas peserta ujian; GPT-3Markah .5 berada di bawah 10%. Peningkatan ketara ini dalam GPT-4Prestasi adalah disebabkan oleh data latihannya yang lebih besar dan seni bina yang lebih baik. Ia dijangka mempunyai pelbagai aplikasi dalam pelbagai bidang, termasuk pemprosesan bahasa semula jadi dan penulisan automatik.

 
GPT-4 mempamerkan prestasi peringkat manusia pada kebanyakan peperiksaan profesional dan akademik ini. Terutamanya, ia lulus versi simulasi Peperiksaan Bar Seragam dengan markah dalam 10% teratas peserta ujian. Keupayaan model pada peperiksaan nampaknya berpunca terutamanya daripada proses pra-latihan dan tidak terjejas dengan ketara oleh RLHF. Mengenai soalan aneka pilihan, kedua-duanya asas GPT-4 model dan model RLHF menunjukkan prestasi yang sama baik secara purata merentas pembangun peperiksaan yang diuji.

Sebilangan besar model terkini (SOTA), termasuk yang mungkin menggunakan protokol latihan tambahan atau reka bentuk khusus penanda aras, serta model besar sedia ada. model bahasa, diungguli dengan ketara oleh GPT-4.

GPT-4prestasi dari segi standard akademik. Pembangun kontras GPT-4 dengan SOTA terbaik untuk beberapa pukulan yang dinilai LM serta SOTA terbaik dengan latihan khusus penanda aras. Kecuali DROP, GPT-4 mengatasi semua LM semasa pada semua penanda aras dan SOTA dengan latihan khusus penanda aras.

Secara dalaman, pemaju telah menggunakan GPT-4, yang telah memberi kesan ketara pada aktiviti seperti pengaturcaraan, jualan, sokongan dan penyederhanaan kandungan. Peringkat kedua kaedah penjajaran kami kini sedang dijalankan kerana pembangun menggunakannya untuk membantu manusia menyemak hasil AI.

Set data MMLU (Massive Multi-Task Language Understanding) mengandungi soalan daripada pelbagai topik yang sangat luas tentang pemahaman bahasa dalam tugasan yang berbeza (menjangkau 57 domain, termasuk matematik, biologi, undang-undang, sains sosial dan manusia, dsb.). Terdapat empat kemungkinan jawapan untuk soalan itu, salah satunya adalah betul. Iaitu, tekaan rawak menunjukkan keputusan 25% jawapan betul. Lihat gambar di bawah untuk contoh soalan dan kesukarannya. Rata-rata penanda orang (iaitu, ini bukan saintis, bukan profesor-orang biasa yang menyinari bulan sebagai markup) menjawab dengan betul kepada 35% daripada soalan; walau bagaimanapun, pakar boleh mencapai markah +/- 90%.

Prestasi GPT-4 dalam pelbagai bahasa berbanding model terdahulu dalam bahasa Inggeris di MMLU. GPT-4 melebihi prestasi bahasa Inggeris bagi model bahasa sedia ada untuk sebahagian besar bahasa yang diperiksa, termasuk bahasa sumber rendah seperti Latvia, Wales dan Swahili.
Baca lebih lanjut: 5 Sebab Menggunakan Bing Dikuasakan AI Di Atas Google

Pada asalnya, keseluruhan set data adalah dalam bahasa Inggeris. Tetapi bagaimana jika soalan dan jawapan diterjemahkan ke dalam bahasa lain, terutamanya yang kurang biasa? Adakah model itu berfungsi untuk mereka entah bagaimana? Dalam ujian ini, perkhidmatan Terjemahan Microsoft Azure telah digunakan untuk terjemahan. Terjemahan tidak sempurna; dalam beberapa kes, maklumat penting hilang. Walau bagaimanapun, walaupun dalam kes ini, GPT-4 berprestasi baik dalam bahasa lain. Dalam versi terjemahan MMLU, GPT-4 mengatasi tahap bahasa Inggeris model besar lain (termasuk Google) dengan 24 daripada 26 bahasa yang diperiksa.

Apa lagi, GPT-4 berprestasi lebih baik dalam bahasa yang jarang ditemui daripada ChatGPT lakukan dalam bahasa Inggeris (ChatGPT mencapai skor 70.1%, manakala skor model baharu untuk bahasa Thai ialah 71.8%). Markah untuk ujian dalam bahasa Inggeris adalah yang tertinggi, dengan GPT-4 berprestasi 10% lebih baik daripada model lain, termasuk PaLM terbesar daripada Google. Ia mencapai skor 86.4%, manakala sekumpulan pakar-90%.

  • Menjelang musim panas 2023, AI mungkin telah mencapai tahap kuasa baharu terima kasih kepada ChatGPT, chatbot yang menggunakan GPT-4 algoritma dan outperforms GPT-3 dengan faktor 570. Pelbagai elemen menyumbang kepada ChatGPTkejayaan, termasuk reka bentuknya untuk menjadi lebih "seperti manusia" dan penggunaan perlombongan data termaju dan pemprosesan bahasa semula jadi untuk meningkatkan keberkesanan dan ketepatannya.
  • Microsoft dan OpenAI mengumumkan pembaharuan kerjasama mereka dan rancangan untuk carian Bing untuk menggunakan keupayaan carian dipertingkat AI pada bulan Januari. Yang sangat canggih GPTpenggantian model 3.5, GPT4, baru sahaja dilancarkan, dan ia mempunyai potensi untuk meningkatkan keupayaan carian Bing untuk memahami pertanyaan bahasa semula jadi dan menyampaikan hasil yang lebih tepat. Adalah idea yang baik untuk mempunyai pelan sandaran yang baik sekiranya berlaku kesilapan.

Baca lebih banyak berita berkaitan:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

lebih banyak artikel
Damir Yalalov
Damir Yalalov

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

Selera Institusi Berkembang Terhadap Bitcoin ETF Di Tengah-tengah Kemeruapan

Pendedahan melalui pemfailan 13F mendedahkan pelabur institusi terkenal yang berkecimpung dalam Bitcoin ETF, menekankan penerimaan yang semakin meningkat terhadap ...

Mengetahui lebih lanjut

Hari Penghukuman Tiba: Nasib CZ Bergantung Seimbang apabila Mahkamah AS Mempertimbangkan Rayuan DOJ

Changpeng Zhao bersedia untuk menghadapi hukuman di mahkamah AS di Seattle hari ini.

Mengetahui lebih lanjut
Sertai Komuniti Teknologi Inovatif Kami
Untuk Lebih Lanjut
Baca lagi
Injektif Menyertai Pasukan Dengan AltLayer Untuk Membawa Keselamatan Restaking Kepada inEVM
Perniagaan Laporan Berita Teknologi
Injektif Menyertai Pasukan Dengan AltLayer Untuk Membawa Keselamatan Restaking Kepada inEVM
Semoga 3, 2024
Masa Bekerjasama Dengan Juruwang Untuk Memperkenalkan Kumpulan Pinjaman MASA, Membolehkan Pinjaman USDC Di Pangkalan
pasaran Laporan Berita Teknologi
Masa Bekerjasama Dengan Juruwang Untuk Memperkenalkan Kumpulan Pinjaman MASA, Membolehkan Pinjaman USDC Di Pangkalan
Semoga 3, 2024
Velodrome Melancarkan Versi Beta Superchain Dalam Minggu Akan Datang Dan Berkembang Merentasi OP Stack Layer 2 Blockchains
pasaran Laporan Berita Teknologi
Velodrome Melancarkan Versi Beta Superchain Dalam Minggu Akan Datang Dan Berkembang Merentasi OP Stack Layer 2 Blockchains
Semoga 3, 2024
CARV Mengumumkan Perkongsian Dengan Aethir Untuk Memusnahkan Lapisan Datanya Dan Mengedarkan Ganjaran
Perniagaan Laporan Berita Teknologi
CARV Mengumumkan Perkongsian Dengan Aethir Untuk Memusnahkan Lapisan Datanya Dan Mengedarkan Ganjaran
Semoga 3, 2024