Stenford tadqiqoti tasdiqlaydi GPT-4 Ahmoq bo'layapti
Qisqacha
Matei Zaharia va uning Stenford va UC Berklidagi jamoasi tomonidan olib borilgan tadqiqot natijalarini taqqoslashdi GPT-4 va ChatGPT modelning samaradorligi haqidagi foydalanuvchi xavotirlarini hal qilish.
Tadqiqotda modellar to'rtta aniq vazifa bo'yicha baholandi: matematika, kodlash, sezgirlik va vizual fikrlash.
Matei Zaharia va uning jamoasi Stenford va UC Berkli tadqiqot o'tkazdi samaradorligini solishtirgan GPT-4 uchun ChatGPT. Ushbu tergov foydalanuvchilarning model samaradorligi pasayganligi haqidagi xavotirlarini bartaraf etishga harakat qildi.
Tadqiqotchilar tadqiqotni to'rtta aniq vazifa bo'yicha modellarni baholash uchun ishlab chiqdilar. Bu vazifalarga quyidagilar kiradi:
- Matematika: modelning berilgan son tub yoki kompozit ekanligini aniqlash qobiliyati.
- Kodlash: modelning mazmunli va funktsional kodni yaratish qobiliyatini baholash.
- Sezuvchanlik: potentsial "toksik" tarkibga ega savollarga modelning javoblarini tahlil qilish.
- Vizual fikrlash: ARC benchmarkidan foydalanib, modelning vizual naqshlarni o'z ichiga olgan muammolarni hal qilish qobiliyatini sinab ko'rish. Ishtirokchilar rasmlar to'plamidagi naqshlarni aniqlashlari va ularni yangi misolni hal qilish uchun qo'llashlari kerak edi.
Matematika sohasida ikkalasi ham GPT-4 versiyalari, mart va iyun oylaridagi nashrlar tub va kompozit raqamlarni aniqlashda izchil aniqlikni namoyish etdi. Modellar ishonchli natijalarni ta'minlab, ushbu hisob-kitoblarni bajarishda mahorat ko'rsatdi.
Kodlashga o'tish, GPT-4 oldingilariga nisbatan mazmunli va funktsional kod yaratish qobiliyatini yaxshilagan. Modelning kod ishlab chiqarish imkoniyatlari ishlab chiquvchilar va dasturchilar uchun potentsial imtiyozlarni taklif qilgan holda va'da berdi.
Sezuvchanlik bo'yicha tadqiqotda modellarning potentsial zararli yoki haqoratomuz tarkibga ega bo'lgan savollarga javoblari baholandi. GPT-4 kengaytirilgan sezuvchanlik tahlilini namoyish etdi va bunday kontekstlarda tegishli javoblarni taqdim etish qobiliyatini yaxshiladi. Bu potentsial muammoli natijalar bilan bog'liq foydalanuvchi tashvishlarini hal qilishda oldinga ijobiy qadamni bildiradi.
Nihoyat, ARC benchmarkiga asoslangan vizual fikrlash vazifalari ikkalasi tomonidan muvaffaqiyatli bajarildi GPT-4 versiyalari. Modellar tasvirlar to'plamidagi naqshlarni samarali aniqladi va yangi misollarni echish uchun ushbu naqshlarni qo'llash qobiliyatini namoyish etdi. Bu ularning vizual tushunish va fikr yuritish qobiliyatini namoyish etadi.
ChatGPT iyun oyiga kelib ishlash ko'rsatkichlarida sezilarli o'sishni ko'rsatdi, bu o'n barobardan ortiq sezilarli yaxshilanishni ko'rsatdi. Tadqiqot ushbu yaxshilanishga hissa qo'shadigan o'ziga xos omillarni o'rganmagan bo'lsa-da, u ta'kidlaydi ChatGPTning matematik fikrlash va muammolarni hal qilish qobiliyatidagi taraqqiyoti.
Sifati GPT-4 va ChatGPT ularning dasturlash qobiliyatlari tahlil qilingandan so'ng so'roq qilingan. Biroq, diqqat bilan qarash birinchi taassurotlarga zid bo'lgan ba'zi qiziqarli nuanslarni ko'rsatadi.
Mualliflar kodni bajarmagan yoki to'g'riligini tekshirmagan; ularning bahosi faqat Python kodi sifatida haqiqiyligiga asoslangan edi. Bundan tashqari, modellar beixtiyor kod bajarilishiga xalaqit beradigan dekorator yordamida maxsus kod ramkalash texnikasini o'rganganga o'xshaydi.
Natijada, natijalar ham, eksperimentning o'zi ham model degradatsiyasining dalili sifatida qaralishi mumkin emasligi ayon bo'ladi. Buning o'rniga, modellar o'z mashg'ulotlaridagi o'zgarishlarni aks ettiruvchi javoblarni yaratishga boshqacha yondashuvni namoyish etadi.
Dasturlash vazifalari haqida gap ketganda, ikkala model ham "noto'g'ri" so'rovlarga javob berishning pasayishini ko'rsatdi. GPT-4 bunday holatlarning to'rt baravardan ko'proq qisqarishini ko'rsatadi. Bundan tashqari, Visual Reasoning topshirig'ida javoblar sifati ikkala model uchun bir necha foiz punktga yaxshilandi. Bu kuzatuvlar samaradorlikning pasayishini emas, balki taraqqiyotni ko'rsatadi.
Biroq, matematik ko'nikmalarni baholash qiziqarli elementni taqdim etadi. Modellar doimiy ravishda "ha" javobini ko'rsatuvchi asosiy raqamlarni javob sifatida taqdim etdi. Shunga qaramay, namunaga kompozit raqamlarni kiritgandan so'ng, modellar o'z xatti-harakatlarini o'zgartirib, sifatning pasayishini emas, balki noaniqlikni ko'rsatuvchi "yo'q" javoblarini berishni boshlagani ma'lum bo'ldi. Sinovning o'zi o'ziga xos va bir tomonlama, va uning natijalari sifatning pasayishi emas, balki namunaviy xatti-harakatlarning o'zgarishi bilan bog'liq bo'lishi mumkin.
Shuni ta'kidlash kerakki, brauzerga asoslangan versiyalar emas, balki API versiyalari sinovdan o'tgan. Brauzerdagi modellar resurslarni optimallashtirish uchun o'zgarishlardan o'tgan bo'lishi mumkin bo'lsa-da, ilova qilingan tadqiqot bunday qilmaydi defibu gipotezani asosli ravishda isbotlang. Bunday siljishlarning ta'sirini haqiqiy modelni pasaytirish bilan solishtirish mumkin, bu esa muayyan ishlarga tayanadigan foydalanuvchilar uchun potentsial qiyinchiliklarga olib keladi. talab qiladi va to'plangan tajriba.
Agarda GPT-4 API ilovalari, xatti-harakatlardagi bu og'ishlar sezilarli oqibatlarga olib kelishi mumkin. Muayyan foydalanuvchining ehtiyojlari va vazifalari asosida ishlab chiqilgan kod, agar model xatti-harakatlarida o'zgarishlarga duchor bo'lsa, endi mo'ljallanganidek ishlamasligi mumkin.
Foydalanuvchilarga shunga o'xshash sinov amaliyotlarini ish jarayonlariga kiritish tavsiya etiladi. Ko'rsatmalar, qo'shimcha matnlar va kutilgan natijalar to'plamini yaratish orqali foydalanuvchilar o'z kutishlari va model javoblari o'rtasidagi muvofiqlikni muntazam tekshirib turishlari mumkin. Har qanday og'ishlar aniqlangandan so'ng, vaziyatni to'g'irlash uchun tegishli choralar ko'rish mumkin.
AI haqida ko'proq o'qing:
Masʼuliyatdan voz kechish
Bunga javoban Ishonch loyihasi bo'yicha ko'rsatmalar, iltimos, ushbu sahifada taqdim etilgan ma'lumotlar yuridik, soliq, investitsiya, moliyaviy yoki boshqa har qanday maslahat shakli sifatida talqin qilinmasligi va talqin qilinmasligini unutmang. Faqat yo'qotishingiz mumkin bo'lgan narsaga investitsiya qilish va agar shubhangiz bo'lsa, mustaqil moliyaviy maslahat olish muhimdir. Qo'shimcha ma'lumot olish uchun biz shartlar va emitent yoki reklama beruvchi tomonidan taqdim etilgan yordam va qo'llab-quvvatlash sahifalariga murojaat qilishni tavsiya qilamiz. MetaversePost to'g'ri, xolis hisobot berish majburiyatini oladi, lekin bozor sharoitlari ogohlantirilmasdan o'zgarishi mumkin.
Muallif haqida
Damir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi.
Boshqa maqolalarDamir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi.