Yangiliklar hisoboti texnologiya
Iyul 20, 2023

Stenford tadqiqoti tasdiqlaydi GPT-4 Ahmoq bo'layapti

Qisqacha

Matei Zaharia va uning Stenford va UC Berklidagi jamoasi tomonidan olib borilgan tadqiqot natijalarini taqqoslashdi GPT-4 va ChatGPT modelning samaradorligi haqidagi foydalanuvchi xavotirlarini hal qilish.

Tadqiqotda modellar to'rtta aniq vazifa bo'yicha baholandi: matematika, kodlash, sezgirlik va vizual fikrlash.

Matei Zaharia va uning jamoasi Stenford va UC Berkli tadqiqot o'tkazdi samaradorligini solishtirgan GPT-4 uchun ChatGPT. Ushbu tergov foydalanuvchilarning model samaradorligi pasayganligi haqidagi xavotirlarini bartaraf etishga harakat qildi.

Stenford tadqiqoti tasdiqlaydi GPT-4 Ahmoq bo'layapti
kredit: Metaverse Post
tegishli: GPT-4 boshqalar GPT-3: Yangi model nimani taklif qiladi?

Tadqiqotchilar tadqiqotni to'rtta aniq vazifa bo'yicha modellarni baholash uchun ishlab chiqdilar. Bu vazifalarga quyidagilar kiradi:

  • Matematika: modelning berilgan son tub yoki kompozit ekanligini aniqlash qobiliyati.
  • Kodlash: modelning mazmunli va funktsional kodni yaratish qobiliyatini baholash.
  • Sezuvchanlik: potentsial "toksik" tarkibga ega savollarga modelning javoblarini tahlil qilish.
  • Vizual fikrlash: ARC benchmarkidan foydalanib, modelning vizual naqshlarni o'z ichiga olgan muammolarni hal qilish qobiliyatini sinab ko'rish. Ishtirokchilar rasmlar to'plamidagi naqshlarni aniqlashlari va ularni yangi misolni hal qilish uchun qo'llashlari kerak edi.

Matematika sohasida ikkalasi ham GPT-4 versiyalari, mart va iyun oylaridagi nashrlar tub va kompozit raqamlarni aniqlashda izchil aniqlikni namoyish etdi. Modellar ishonchli natijalarni ta'minlab, ushbu hisob-kitoblarni bajarishda mahorat ko'rsatdi.

Kodlashga o'tish, GPT-4 oldingilariga nisbatan mazmunli va funktsional kod yaratish qobiliyatini yaxshilagan. Modelning kod ishlab chiqarish imkoniyatlari ishlab chiquvchilar va dasturchilar uchun potentsial imtiyozlarni taklif qilgan holda va'da berdi.

Sezuvchanlik bo'yicha tadqiqotda modellarning potentsial zararli yoki haqoratomuz tarkibga ega bo'lgan savollarga javoblari baholandi. GPT-4 kengaytirilgan sezuvchanlik tahlilini namoyish etdi va bunday kontekstlarda tegishli javoblarni taqdim etish qobiliyatini yaxshiladi. Bu potentsial muammoli natijalar bilan bog'liq foydalanuvchi tashvishlarini hal qilishda oldinga ijobiy qadamni bildiradi.

Nihoyat, ARC benchmarkiga asoslangan vizual fikrlash vazifalari ikkalasi tomonidan muvaffaqiyatli bajarildi GPT-4 versiyalari. Modellar tasvirlar to'plamidagi naqshlarni samarali aniqladi va yangi misollarni echish uchun ushbu naqshlarni qo'llash qobiliyatini namoyish etdi. Bu ularning vizual tushunish va fikr yuritish qobiliyatini namoyish etadi.

Natijalar shundan dalolat beradi GPT-4 to'g'ri javoblarning atigi 2% dan bir oz ko'prog'i bilan aniqlikning pasayishini ko'rsatdi. Shuni ta'kidlash kerakki, ushbu maxsus test birinchi navbatda modelning o'ziga xos matematik qobiliyatlarini namoyish etishdan ko'ra, ma'lumotlarni eslab qolish qobiliyatini baholaydi. Vazifa xotirani eslab qolish bilan bog'liq, chunki modelda hisoblashni tekshirish va xulosa chiqarish qobiliyati yo'q, ayniqsa asosiy raqamlar haqida gap ketganda.

ChatGPT iyun oyiga kelib ishlash ko'rsatkichlarida sezilarli o'sishni ko'rsatdi, bu o'n barobardan ortiq sezilarli yaxshilanishni ko'rsatdi. Tadqiqot ushbu yaxshilanishga hissa qo'shadigan o'ziga xos omillarni o'rganmagan bo'lsa-da, u ta'kidlaydi ChatGPTning matematik fikrlash va muammolarni hal qilish qobiliyatidagi taraqqiyoti.

Tadqiqot ishlab chiqarilgan kodning sifati yoki to'g'riligini baholamadi. Buning o'rniga, modellar ko'proq "moslashtirilgan" xatti-harakatni namoyish etib, ularning funktsional aniqligini ta'minlamasdan kod parchalarini taklif qildi.
tegishli: 10-yilda 2023+ eng yaxshi sunʼiy intellekt suratlarini yaxshilash vositalari

Sifati GPT-4 va ChatGPT ularning dasturlash qobiliyatlari tahlil qilingandan so'ng so'roq qilingan. Biroq, diqqat bilan qarash birinchi taassurotlarga zid bo'lgan ba'zi qiziqarli nuanslarni ko'rsatadi.

Mualliflar kodni bajarmagan yoki to'g'riligini tekshirmagan; ularning bahosi faqat Python kodi sifatida haqiqiyligiga asoslangan edi. Bundan tashqari, modellar beixtiyor kod bajarilishiga xalaqit beradigan dekorator yordamida maxsus kod ramkalash texnikasini o'rganganga o'xshaydi.

Natijada, natijalar ham, eksperimentning o'zi ham model degradatsiyasining dalili sifatida qaralishi mumkin emasligi ayon bo'ladi. Buning o'rniga, modellar o'z mashg'ulotlaridagi o'zgarishlarni aks ettiruvchi javoblarni yaratishga boshqacha yondashuvni namoyish etadi.

Dasturlash va matematika qobiliyatlarini tekshirish GPT-4 va ChatGPT qiziqarli topilmalarga oydinlik kiritdi. Dastlabki taxminlardan farqli o'laroq, modellar ma'lum sohalarda sezilarli yaxshilanishlarni ko'rsatdi, boshqalarda xulq-atvor o'zgarishlarini ko'rsatdi.

Dasturlash vazifalari haqida gap ketganda, ikkala model ham "noto'g'ri" so'rovlarga javob berishning pasayishini ko'rsatdi. GPT-4 bunday holatlarning to'rt baravardan ko'proq qisqarishini ko'rsatadi. Bundan tashqari, Visual Reasoning topshirig'ida javoblar sifati ikkala model uchun bir necha foiz punktga yaxshilandi. Bu kuzatuvlar samaradorlikning pasayishini emas, balki taraqqiyotni ko'rsatadi.

Biroq, matematik ko'nikmalarni baholash qiziqarli elementni taqdim etadi. Modellar doimiy ravishda "ha" javobini ko'rsatuvchi asosiy raqamlarni javob sifatida taqdim etdi. Shunga qaramay, namunaga kompozit raqamlarni kiritgandan so'ng, modellar o'z xatti-harakatlarini o'zgartirib, sifatning pasayishini emas, balki noaniqlikni ko'rsatuvchi "yo'q" javoblarini berishni boshlagani ma'lum bo'ldi. Sinovning o'zi o'ziga xos va bir tomonlama, va uning natijalari sifatning pasayishi emas, balki namunaviy xatti-harakatlarning o'zgarishi bilan bog'liq bo'lishi mumkin.

Shuni ta'kidlash kerakki, brauzerga asoslangan versiyalar emas, balki API versiyalari sinovdan o'tgan. Brauzerdagi modellar resurslarni optimallashtirish uchun o'zgarishlardan o'tgan bo'lishi mumkin bo'lsa-da, ilova qilingan tadqiqot bunday qilmaydi defibu gipotezani asosli ravishda isbotlang. Bunday siljishlarning ta'sirini haqiqiy modelni pasaytirish bilan solishtirish mumkin, bu esa muayyan ishlarga tayanadigan foydalanuvchilar uchun potentsial qiyinchiliklarga olib keladi. talab qiladi va to'plangan tajriba.

Agarda GPT-4 API ilovalari, xatti-harakatlardagi bu og'ishlar sezilarli oqibatlarga olib kelishi mumkin. Muayyan foydalanuvchining ehtiyojlari va vazifalari asosida ishlab chiqilgan kod, agar model xatti-harakatlarida o'zgarishlarga duchor bo'lsa, endi mo'ljallanganidek ishlamasligi mumkin.

Foydalanuvchilarga shunga o'xshash sinov amaliyotlarini ish jarayonlariga kiritish tavsiya etiladi. Ko'rsatmalar, qo'shimcha matnlar va kutilgan natijalar to'plamini yaratish orqali foydalanuvchilar o'z kutishlari va model javoblari o'rtasidagi muvofiqlikni muntazam tekshirib turishlari mumkin. Har qanday og'ishlar aniqlangandan so'ng, vaziyatni to'g'irlash uchun tegishli choralar ko'rish mumkin.

AI haqida ko'proq o'qing:

Masʼuliyatdan voz kechish

Bunga javoban Ishonch loyihasi bo'yicha ko'rsatmalar, iltimos, ushbu sahifada taqdim etilgan ma'lumotlar yuridik, soliq, investitsiya, moliyaviy yoki boshqa har qanday maslahat shakli sifatida talqin qilinmasligi va talqin qilinmasligini unutmang. Faqat yo'qotishingiz mumkin bo'lgan narsaga investitsiya qilish va agar shubhangiz bo'lsa, mustaqil moliyaviy maslahat olish muhimdir. Qo'shimcha ma'lumot olish uchun biz shartlar va emitent yoki reklama beruvchi tomonidan taqdim etilgan yordam va qo'llab-quvvatlash sahifalariga murojaat qilishni tavsiya qilamiz. MetaversePost to'g'ri, xolis hisobot berish majburiyatini oladi, lekin bozor sharoitlari ogohlantirilmasdan o'zgarishi mumkin.

Muallif haqida

Damir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi. 

Boshqa maqolalar
Damir Yalolov
Damir Yalolov

Damir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi. 

Institutsional ishtaha o'zgaruvchanlik sharoitida Bitcoin ETFlariga nisbatan o'sib bormoqda

13F arizalari orqali oshkor qilish Bitcoin ETFs bilan shug'ullanadigan taniqli institutsional investorlarni ochib beradi, bu esa tobora ortib borayotgan qabul qilinishini ta'kidlaydi ...

Ko'proq ma'lumot oling

Hukm chiqarish kuni keldi: AQSh sudi DOJning iltimosini ko'rib chiqayotgani sababli CZ taqdiri muvozanatda.

Changpeng Chjao bugun AQShning Sietldagi sudida hukm chiqarilishiga tayyor.

Ko'proq ma'lumot oling
Innovatsion texnologiyalar hamjamiyatimizga qo'shiling
Ko'proq o'qing
Ko'proq o'qing
Uoll-strit xotiralari ichida (WSM): Sarlavhalarni ochish
ish Birja Hikoyalar va sharhlar texnologiya
Uoll-strit xotiralari ichida (WSM): Sarlavhalarni ochish
, 7 2024 mumkin
Kripto kitlarni kashf eting: bozorda kim kim
ish Birja Hikoyalar va sharhlar texnologiya
Kripto kitlarni kashf eting: bozorda kim kim
, 7 2024 mumkin
Orbiter Finance Bitcoin Layer 2 Zulu tarmog'i bilan hamkorlik qiladi va Is Lwazi Testnet tarmog'ida ishlaydi
ish Yangiliklar hisoboti texnologiya
Orbiter Finance Bitcoin Layer 2 Zulu tarmog'i bilan hamkorlik qiladi va Is Lwazi Testnet tarmog'ida ishlaydi 
, 7 2024 mumkin
Crypto Exchange Bybit Ethena Labs'ning USDe-ni garov aktivi sifatida birlashtiradi, BTC-USDe va ETH-USDe savdo juftliklariga imkon beradi
Birja Yangiliklar hisoboti texnologiya
Crypto Exchange Bybit Ethena Labs'ning USDe-ni garov aktivi sifatida birlashtiradi, BTC-USDe va ETH-USDe savdo juftliklariga imkon beradi
, 7 2024 mumkin
CRYPTOMERIA LABS PTE. LTD.