GPT-4AQSh advokatlik imtihonidagi natijalari uning da'volariga zid
Qisqacha
ning tekshiruvi GPT-4Yagona advokatlik imtihonidagi natijalari taxminiy va haqiqiy ko'rsatkichlar o'rtasidagi tafovutni aniqladi va shaffof baholash tartib-qoidalari va foydalanish mumkin bo'lgan ma'lumotlar muhimligini ta'kidladi.
OpenAI ishonchni qozonish va ishonchlilikni ta'minlash uchun nomuvofiqliklarni bartaraf etish va AI modelini baholashga yanada inklyuziv va ishonchli yondashuvni ishlab chiqish tavsiya etiladi.
Yaqinda o'tkazilgan tekshiruvda GPT-4Yagona advokatlik imtihonidagi natijalari (EBU), to'g'riligiga shubhalar paydo bo'ldi OpenAImodelning muvaffaqiyat darajasi haqidagi da'volari. Dastlabki ta'kiddan farqli o'laroq GPT-4 shaxslarning 90% dan ustun turadi, topilmalar AI modelining taxminiy va haqiqiy ishlashi o'rtasida sezilarli tafovut borligini ko'rsatadi. Ushbu vahiy shaffof baholash protseduralari va bunday da'volarni tasdiqlash uchun mavjud ma'lumotlarning muhimligini ta'kidlaydi.
Imtihon haqiqiy imkoniyatlarini aniqlash uchun turli omillarga e'tibor qaratdi GPT-4. Birinchidan, tahlil Illinoys shtatidagi fevral imtihonlari shuni ko'rsatdi GPT-4ning ballari yaqinlashdi 90-foiz. Biroq, bu ballarga iyul oyida imtihondan o'ta olmagan va shu tariqa umumiy o'rtacha ko'rsatkichdan pastroq ball to'plagan qayta qabul qiluvchilar katta ta'sir ko'rsatganligi kuzatildi.
Bundan tashqari, iyul oyidagi imtihon natijalari bir-biriga zid edi OpenAIning da'volari buni ochib beradi GPT-4 faqat bo'lardi juda yaxshi 68% odamlar va 48% insholar. GPT-4Turli davrlardagi bir nechta testlardan olingan rasmiy ma'lumotlar ko'rib chiqilganda, birinchi marta qatnashuvchilarga nisbatan (qayta imtihondan tashqari) 63 foizda baholandi, insholar esa 41 foizda ancha past ball oldi.
Imtihondan muvaffaqiyatli o‘tganlar, jumladan, litsenziyalangan va litsenziya olishni kutayotgan shaxslarning faoliyatini o‘rganish orqali qo‘shimcha istiqbolga ega bo‘ldi. Ushbu munosabatda, GPT-4ning umumiy ko'rsatkichlari 48 foizli o'rinni egalladi, insholar esa 15 foizda undan ham yomonroq.
Ushbu topilmalar tashvishli bo'lsa-da, ko'rib chiqish jarayonida inson xatosi ehtimolini hisobga olish juda muhimdir. Maqola muallifi tadqiqotchilar tomonidan baholash uchun foydalanilgan namunani tushunish muhimligini ta'kidlaydi. GPT-4ning ishlashi. Rasmiy ma'lumotlarning yo'qligi, ayniqsa jamlangan shaklda, foizlarni adolatli taqqoslash va baholashni qiyinlashtiradi. Barcha manfaatdor tomonlar tomonidan baholanishi mumkin bo'lgan aniq va foydalanish mumkin bo'lgan baholash usullarini yaratish juda muhimdir.
Bu xavotirlarga javoban, OpenAI kelishmovchiliklarni bartaraf etishga chaqiriladi va qo'shimcha ma'lumotlarni taqdim eting baholash jarayoniga kiradi. Shaffoflik va oshkoralik ishonchni qozonish va qonun kabi yuqori darajadagi sohalarda AI modellarining ishonchliligini ta'minlash uchun muhim ahamiyatga ega.
Shuni ta'kidlash kerakki, maqolada erishilgan aniq ball muhokama qilinmaydi GPT-4, bu esa 298 ekanligi xabar qilingan. Ushbu ballning ahamiyatini baholash qo'llanilgan baholash tizimini kontekstual tushunishni talab qiladi. Maktabdan B ball bilan qaytgan bolaning bayramga yoki umidsizlikka sabab bo'lishi mumkin. GPT-4ball qo'llanilgan shkalaga bog'liq.
ni baholash GPT-4ning advokatlik imtihonidagi faoliyati jiddiy tashvish uyg‘otadi haqiqati haqida OpenAIning dastlabki da'volari. Hisoblangan va haqiqiy ishlash o'rtasidagi farq aniq baholash tizimlari va oson kirish mumkin bo'lgan ma'lumotlarning muhimligini ta'kidlaydi. OpenAI bu muammolarni hal qilish va yanada inklyuziv rivojlantirish uchun da'vat etiladi va AIga ishonchli yondashuv modelni baholash.
AI haqida ko'proq o'qing:
Masʼuliyatdan voz kechish
Bunga javoban Ishonch loyihasi bo'yicha ko'rsatmalar, iltimos, ushbu sahifada taqdim etilgan ma'lumotlar yuridik, soliq, investitsiya, moliyaviy yoki boshqa har qanday maslahat shakli sifatida talqin qilinmasligi va talqin qilinmasligini unutmang. Faqat yo'qotishingiz mumkin bo'lgan narsaga investitsiya qilish va agar shubhangiz bo'lsa, mustaqil moliyaviy maslahat olish muhimdir. Qo'shimcha ma'lumot olish uchun biz shartlar va emitent yoki reklama beruvchi tomonidan taqdim etilgan yordam va qo'llab-quvvatlash sahifalariga murojaat qilishni tavsiya qilamiz. MetaversePost to'g'ri, xolis hisobot berish majburiyatini oladi, lekin bozor sharoitlari ogohlantirilmasdan o'zgarishi mumkin.
Muallif haqida
Damir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi.
Boshqa maqolalarDamir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi.