GPT-4 Lebih cemerlang GPT-3.5 Merentas Papan pada Pelbagai Penanda Aras Kajian
Secara ringkas
. GPT-4 telah mencapai ambang gred yang lebih tinggi daripada GPT-3.5 pada pelbagai penanda aras.
Ini merupakan pencapaian besar kerana ia menunjukkan bahawa mesin bukan sahaja mampu kecerdasan seperti manusia tetapi juga boleh mengatasi prestasi kita, yang menimbulkan persoalan tentang masa depan AI dan potensi kesannya terhadap pasaran kerja.
GPT-4 diungguli dengan ketara oleh model terkini (SOTA), termasuk yang menggunakan protokol latihan tambahan atau reka bentuk khusus penanda aras, serta model bahasa besar sedia ada.
. GPT-4 telah mencapai markah yang lebih tinggi daripada GPT-3.5 pada pelbagai penanda aras. Ini adalah satu kejayaan besar untuk mesin kerana ia membuktikan bahawa mereka kini bukan sahaja boleh menyelesaikan masalah yang pada asalnya direka untuk tetapi juga boleh melakukannya dengan lebih baik daripada pelajar universiti.
Terdapat beberapa perkara yang perlu diambil kira semasa melihat hasil ini. Pertama, yang GPT-4 tidak diberi latihan khusus untuk peperiksaan ini. Ia diteruskan dengan menggunakan ujian terkini yang tersedia secara terbuka (dalam kes soalan jawapan percuma Olympiads dan AP) atau dengan membeli peperiksaan latihan edisi 2022–2023. Kedua, adalah penting untuk diperhatikan bahawa GPT-4Prestasi mungkin tidak semestinya mencerminkan kebolehan pengambil ujian manusia, kerana ia beroperasi pada set prinsip dan algoritma yang berbeza.
Ini adalah satu pencapaian besar sebagai ia menunjukkan bahawa mesin bukan sahaja mampu kecerdasan seperti manusia tetapi juga boleh mengatasi kita. Ini membuka jalan untuk masa depan di mana mesin boleh menjalankan tugas yang lebih kompleks, akhirnya membawa kepada masa depan di mana ia boleh membantu kita dalam kehidupan seharian kita.
Baca lebih lanjut: 5+ Model AI Teks-ke-Imej Paling Dinantikan pada 2023 |
GPT-4, sebagai contoh, lulus peperiksaan bar simulasi dengan markah dalam 10% teratas peserta ujian; GPT-3Markah .5 berada di bawah 10%. Peningkatan ketara ini dalam GPT-4Prestasi adalah disebabkan oleh data latihannya yang lebih besar dan seni bina yang lebih baik. Ia dijangka mempunyai pelbagai aplikasi dalam pelbagai bidang, termasuk pemprosesan bahasa semula jadi dan penulisan automatik.
Sebilangan besar model terkini (SOTA), termasuk yang mungkin menggunakan protokol latihan tambahan atau reka bentuk khusus penanda aras, serta model besar sedia ada. model bahasa, diungguli dengan ketara oleh GPT-4.
Secara dalaman, pemaju telah menggunakan GPT-4, yang telah memberi kesan ketara pada aktiviti seperti pengaturcaraan, jualan, sokongan dan penyederhanaan kandungan. Peringkat kedua kaedah penjajaran kami kini sedang dijalankan kerana pembangun menggunakannya untuk membantu manusia menyemak hasil AI.
Set data MMLU (Massive Multi-Task Language Understanding) mengandungi soalan daripada pelbagai topik yang sangat luas tentang pemahaman bahasa dalam tugasan yang berbeza (menjangkau 57 domain, termasuk matematik, biologi, undang-undang, sains sosial dan manusia, dsb.). Terdapat empat kemungkinan jawapan untuk soalan itu, salah satunya adalah betul. Iaitu, tekaan rawak menunjukkan keputusan 25% jawapan betul. Lihat gambar di bawah untuk contoh soalan dan kesukarannya. Rata-rata penanda orang (iaitu, ini bukan saintis, bukan profesor-orang biasa yang menyinari bulan sebagai markup) menjawab dengan betul kepada 35% daripada soalan; walau bagaimanapun, pakar boleh mencapai markah +/- 90%.
Baca lebih lanjut: 5 Sebab Menggunakan Bing Dikuasakan AI Di Atas Google |
Pada asalnya, keseluruhan set data adalah dalam bahasa Inggeris. Tetapi bagaimana jika soalan dan jawapan diterjemahkan ke dalam bahasa lain, terutamanya yang kurang biasa? Adakah model itu berfungsi untuk mereka entah bagaimana? Dalam ujian ini, perkhidmatan Terjemahan Microsoft Azure telah digunakan untuk terjemahan. Terjemahan tidak sempurna; dalam beberapa kes, maklumat penting hilang. Walau bagaimanapun, walaupun dalam kes ini, GPT-4 berprestasi baik dalam bahasa lain. Dalam versi terjemahan MMLU, GPT-4 mengatasi tahap bahasa Inggeris model besar lain (termasuk Google) dengan 24 daripada 26 bahasa yang diperiksa.
Apa lagi, GPT-4 berprestasi lebih baik dalam bahasa yang jarang ditemui daripada ChatGPT lakukan dalam bahasa Inggeris (ChatGPT mencapai skor 70.1%, manakala skor model baharu untuk bahasa Thai ialah 71.8%). Markah untuk ujian dalam bahasa Inggeris adalah yang tertinggi, dengan GPT-4 berprestasi 10% lebih baik daripada model lain, termasuk PaLM terbesar daripada Google. Ia mencapai skor 86.4%, manakala sekumpulan pakar-90%.
- Menjelang musim panas 2023, AI mungkin telah mencapai tahap kuasa baharu terima kasih kepada ChatGPT, chatbot yang menggunakan GPT-4 algoritma dan outperforms GPT-3 dengan faktor 570. Pelbagai elemen menyumbang kepada ChatGPTkejayaan, termasuk reka bentuknya untuk menjadi lebih "seperti manusia" dan penggunaan perlombongan data termaju dan pemprosesan bahasa semula jadi untuk meningkatkan keberkesanan dan ketepatannya.
- Microsoft dan OpenAI mengumumkan pembaharuan kerjasama mereka dan rancangan untuk carian Bing untuk menggunakan keupayaan carian dipertingkat AI pada bulan Januari. Yang sangat canggih GPTpenggantian model 3.5, GPT4, baru sahaja dilancarkan, dan ia mempunyai potensi untuk meningkatkan keupayaan carian Bing untuk memahami pertanyaan bahasa semula jadi dan menyampaikan hasil yang lebih tepat. Adalah idea yang baik untuk mempunyai pelan sandaran yang baik sekiranya berlaku kesilapan.
Baca lebih banyak berita berkaitan:
Penafian
Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.
Tentang Pengarang
Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.
lebih banyak artikelDamir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.