GPT-4 "Gallyutsinatsiya qiluvchi" faktlar va oldingi xatolarni o'z ichiga oladi GPT modellar
Qisqacha
OpenAI deydi GPT-4 oldingi kabi cheklovlarga ega GPT Modellari.
GPT-4 hali ham faktlarni gallyutsinatsiya qiladi va fikrlashda xato qiladi.
Shu bilan birga, GPT-4 dan 40% yuqori ball OpenAIeng so'nggi GPT-3.5 kompaniyaning ichki qarama-qarshi faktlarni baholash bo'yicha.
OpenAI foydalanuvchilarni uning so'nggi til modeli haqida ogohlantirdi, GPT-4, hali ham to'liq ishonchli emas va faktlarni "gallyutsinatsiyalashi" va fikrlash xatolariga yo'l qo'yishi mumkin. Kompaniya foydalanuvchilarni til modeli natijalaridan foydalanishda ehtiyot bo'lishga chaqiradi, ayniqsa "yuqori darajadagi kontekstlarda".
Biroq, yaxshi xabar shundaki GPT-4 oldingi modellarga nisbatan gallyutsinatsiyalarni sezilarli darajada kamaytiradi. OpenAI deb da'vo qilmoqda GPT-4 oxirgisidan 40% yuqori ball GPT-3.5 ichki qarama-qarshi faktlarni baholash bo'yicha.
“Biz TruthfulQA kabi tashqi mezonlarda muvaffaqiyatga erishdik, bu model haqiqatni qarama-qarshi tanlangan noto‘g‘ri bayonotlar to‘plamidan ajratish qobiliyatini sinab ko‘radi. Bu savollar statistik jihatdan jozibador boʻlgan notoʻgʻri javoblar bilan birlashtirilgan”. OpenAI a da yozgan blog post.
Ushbu yaxshilanishga qaramay, model hali ham 2021 yil sentyabr oyidan keyin sodir bo'lgan voqealar haqida ma'lumotga ega emas va ba'zida avvalgi modellar kabi oddiy fikrlash xatolariga yo'l qo'yadi. Bundan tashqari, u foydalanuvchilarning ochiq-oydin yolg'on bayonotlarini qabul qilishda o'ta ishonuvchan bo'lishi mumkin va o'z kodiga xavfsizlik zaifliklarini kiritish kabi qiyin muammolarni hal qila olmaydi. Shuningdek, u taqdim etgan ma'lumotlarni tekshirmaydi.
O'zining avvalgi a'zolari singari, GPT-4 zararli maslahatlar, xato kodi yoki noto'g'ri ma'lumot yaratishi mumkin. Biroq, modelning qo'shimcha imkoniyatlari tushunilishi kerak bo'lgan yangi xavf yuzalariga olib keladi. Ushbu xavflarning darajasini baholash uchun, 50 dan ortiq mutaxassislar Modelni qarama-qarshilik bilan sinab ko'rish uchun turli domenlardan, jumladan, sun'iy intellektni moslashtirish xavflari, kiberxavfsizlik, biorisk, ishonch va xavfsizlik va xalqaro xavfsizlik jalb qilindi. Keyinchalik ularning fikr-mulohazalari va ma'lumotlari modelni yaxshilash uchun ishlatilgan, masalan, yaxshilash uchun qo'shimcha ma'lumotlarni to'plash GPT-4xavfli kimyoviy moddalarni sintez qilish bo'yicha so'rovlarni rad etish qobiliyati.
Asosiy usullardan biri OpenAI RLHF (Inson fikr-mulohazalaridan mustahkamlashni o'rganish) treningi davomida qo'shimcha xavfsizlik mukofot signalini kiritish orqali zararli natijalarni kamaytirishdir. Signal, modelni zararli kontent so'rovlarini rad etishga o'rgatadi defimodeldan foydalanish bo'yicha ko'rsatmalar bilan belgilanadi. Mukofot a tomonidan taqdim etiladi GPT-4 xavfsizlik chegaralari va xavfsizlik bilan bog'liq ko'rsatmalar bo'yicha tugatish uslubini baholaydigan nol zarbali tasniflagich.
OpenAI Shuningdek, u modelning ruxsat etilmagan kontent so'rovlariga javob berish tendentsiyasini 82% ga kamaytirganini aytdi. GPT-3.5 va GPT-4 tibbiy maslahat va o'z-o'ziga zarar etkazish kabi nozik so'rovlarga kompaniya siyosatiga muvofiq 29% tez-tez javob beradi.
paytda OpenAIning aralashuvi yomon xulq-atvorni keltirib chiqarish qiyinligini oshirdi GPT-4, bu hali ham mumkin va foydalanish ko'rsatmalarini buzadigan tarkibni yaratishi mumkin bo'lgan jailbreaklar hali ham mavjud.
“AI tizimlari keng tarqalgani sayin, ushbu aralashuvlarda yuqori darajadagi ishonchlilikka erishish tobora muhim ahamiyat kasb etadi. Hozircha ushbu cheklovlarni suiiste'mollikni kuzatish kabi o'rnatish vaqtidagi xavfsizlik texnikasi bilan to'ldirish juda muhim", - deya qo'shimcha qildi kompaniya.
OpenAI ning potentsial ta'sirini yaxshiroq tushunish va baholash uchun tashqi tadqiqotchilar bilan hamkorlik qilmoqda GPT-4 va uning vorisi modellari. Jamoa shuningdek, kelajakda AI tizimlarida paydo bo'lishi mumkin bo'lgan xavfli imkoniyatlarni baholashni ishlab chiqmoqda. Ular potentsial ijtimoiy va o'rganish davom sifatida iqtisodiy ta'sirlar of GPT-4 va boshqa AI tizimlari, OpenAI o‘z xulosalari va tushunchalarini o‘z vaqtida jamoatchilik bilan o‘rtoqlashadi.
Ko'proq o'qing:
Masʼuliyatdan voz kechish
Bunga javoban Ishonch loyihasi bo'yicha ko'rsatmalar, iltimos, ushbu sahifada taqdim etilgan ma'lumotlar yuridik, soliq, investitsiya, moliyaviy yoki boshqa har qanday maslahat shakli sifatida talqin qilinmasligi va talqin qilinmasligini unutmang. Faqat yo'qotishingiz mumkin bo'lgan narsaga investitsiya qilish va agar shubhangiz bo'lsa, mustaqil moliyaviy maslahat olish muhimdir. Qo'shimcha ma'lumot olish uchun biz shartlar va emitent yoki reklama beruvchi tomonidan taqdim etilgan yordam va qo'llab-quvvatlash sahifalariga murojaat qilishni tavsiya qilamiz. MetaversePost to'g'ri, xolis hisobot berish majburiyatini oladi, lekin bozor sharoitlari ogohlantirilmasdan o'zgarishi mumkin.
Muallif haqida
Sindi jurnalist Metaverse Post, bilan bog'liq mavzularni qamrab oladi web3, NFT, metaverse va AI, bilan suhbatlarga e'tibor qaratiladi Web3 sanoat o'yinchilari. U 30 dan ortiq C darajasidagi rahbarlar bilan suhbatlashdi va ularning qimmatli tushunchalarini o'quvchilarga yetkazdi. Asli Singapurdan bo'lgan Sindi hozirda Gruziyaning Tbilisi shahrida joylashgan. U Janubiy Avstraliya universitetida aloqa va media tadqiqotlari bo‘yicha bakalavr darajasini olgan va jurnalistika va yozuvchilik sohasida o‘n yillik tajribaga ega. orqali u bilan bog'laning [elektron pochta bilan himoyalangan] matbuot maydonchalari, e'lonlar va intervyu imkoniyatlari bilan.
Boshqa maqolalarSindi jurnalist Metaverse Post, bilan bog'liq mavzularni qamrab oladi web3, NFT, metaverse va AI, bilan suhbatlarga e'tibor qaratiladi Web3 sanoat o'yinchilari. U 30 dan ortiq C darajasidagi rahbarlar bilan suhbatlashdi va ularning qimmatli tushunchalarini o'quvchilarga yetkazdi. Asli Singapurdan bo'lgan Sindi hozirda Gruziyaning Tbilisi shahrida joylashgan. U Janubiy Avstraliya universitetida aloqa va media tadqiqotlari bo‘yicha bakalavr darajasini olgan va jurnalistika va yozuvchilik sohasida o‘n yillik tajribaga ega. orqali u bilan bog'laning [elektron pochta bilan himoyalangan] matbuot maydonchalari, e'lonlar va intervyu imkoniyatlari bilan.