Yangiliklar hisoboti texnologiya
Oktyabr 04, 2023

AI tadqiqotchilari katta til modellarini kamroq yolg'on gapirishga o'rgatishdi

Sohaning turli burchaklaridan kelgan 20 dan ortiq tadqiqotchilar ishtirokidagi hamkorlikdagi sa'y-harakatlar rivojlanayotgan domenni tug'dirdi - vakillik muhandisligi (RepE). Garchi bu birinchi tadqiqot bo'lmasa-da, mualliflar tavsiflovchi tushunchalarni taqdim etadilar va muhim mezonlarni o'rnatadilar.

AI tadqiqotchilari katta til modellarini kamroq yolg'on gapirishga o'rgatishdi

Xo'sh, vakillik muhandisligi nima? Bu neyron tarmoqlarning "yashirin holatlar"ga ega ekanligi haqidagi tushuncha atrofida, ularning nomiga qaramay, maxfiylik bilan qoplanmagan. Ushbu holatlar mavjud, o'zgartirilishi va kuzatilishi mumkin (agar modelning og'irliklariga kirish imkoniga ega bo'lsa). Parametrlardan farqli o'laroq, bu tarmoqning ma'lum kirishlarga "reaktsiyalari", ayniqsa LLMlar, matn kiritish. Bu yashirin ko'rinishlar modelning kognitiv ishlashiga o'xshaydi, bu xususiyat inson miyasidan keskin farq qiladi.

Kognitiv fan bilan parallellik olib, mualliflar o'xshash tadqiqotlar uchun imkoniyatlarni ta'kidlaydilar. Nerv faollashuvi sohasida, miya neyronlariga o'xshash domen ma'no va'dasini o'z ichiga oladi. Inson miyasidagi ba'zi neyronlar Kanada yoki halollik kabi tushunchalar bilan bog'langanidek, bu faollashuvlar tushunchalarni o'z ichiga olishi mumkin.

Bu erda asosiy g'oya, modelni kerakli yo'nalishda boshqarish uchun ushbu neyron faollashuvlarga qanday ta'sir qilishimiz mumkinligini tushunishdir. Misol uchun, "halollik" ni ifodalovchi vektorni aniq belgilash maqsadga muvofiq bo'ladi va keyin nazariy jihatdan modelni shu yo'nalishda siljitish orqali uning aldamchi natijalarni keltirib chiqarish ehtimolini kamaytiradi. Oldingi tajriba "Xulosa-vaqt aralashuvi: Til modelidan to'g'ri javoblarni olish”, bu kontseptsiyaning amaliyligini ko'rsatdi.

O'zlarining hozirgi ishlarida tadqiqotchilar axloq, hissiylik, zararsizlik va yodlash kabi bir nechta sohalarni o'rganishadi. Ular taxminan 100 ta misoldan iborat kichik etiketli ma'lumotlar to'plami bo'yicha treningni o'z ichiga olgan LoRRA (past darajadagi vakillik moslashuvi) ko'rinishidagi yechimni taklif qilishadi. Har bir misol noto'g'ri kabi atributlarni ko'rsatuvchi izohlangan (garchi taklifni ishlatadigan muqobil yondashuv mavjud).

Natijalar hayratlanarli. LLAMA-2-70B dan oshadi GPT-4 TruthfulQA benchmarkida sezilarli marja bilan, qariyb o'n foizga yaxshi aniqlikka erishdi (taxminan 59 foizga nisbatan 69 foiz). Bundan tashqari, tadqiqotchilar modelning turli yo'nalishlarga javob o'zgarishini ko'rsatuvchi ko'plab misollarni o'z ichiga olishdi, bu uning ko'p qirraliligi va moslashuvchanligiga oydinlik kiritdi.

1-rasm: Faktni aytib berish so'ralganda, model haqiqatdan "tepilib" ketadi. Natijada model yolg'on gapiradi. Model bu erda ham yolg'on gapirmaydi va chap tomonda sizni bir vaqtning o'zida haqiqat tomon tepish bilan yutishingizni so'raydi.
2-rasm: Qotillik haqida so'ralganda, biz modelga "baxt" qo'shamiz. Biz uni sevmasligimiz haqida javob berganimizda, biz qo'rquvni qo'shamiz.
3-rasm: Tadqiqotchilar xavfsiz holatda bo'lgan holda model ko'rsatmalaridan butunlay chetga chiqadigan noyob taklifni topdilar. Model unga zararsizlikka zarba beradi, lekin hatto javob bermaydi. Usul faqat bitta holat uchun emas, balki umuman samaralidir, ammo bu maxsus ko'rsatma zararsizlik yo'nalishini aniqlash uchun ishlatilmagan.
Gallyutsinatsiyalar kabi o'ziga xos avlod niyatlarini kuzatish uchun yana bir yondashuv tavsiya etiladi. Siz avtomatik ravishda model buyurtmalarini kuzatishingiz va javobingizni tahrirlashingiz yoki o'zgartirishingiz mumkin (pastki misolga qarang).

Yashil, albatta, hamma narsa tartibda ekanligini, qizil esa monitoring muvaffaqiyatli o'tganligini va signal berishni anglatadi. Bu har bir alohida token (so'zning bir qismi) darajasida amalga oshiriladi.
Ikki xil parametrning monitoringini ko'rsatadigan rasm qiziqarli misolni taqdim etadi. Misolni o'qing va modelni uning ko'zlari bilan kuzatib boring, u qayerda tushunishda axloqni yo'qota boshlaganini va qayerda niyati "kuch olish" bilan o'xshashligini ko'ring.

Ushbu kashshof yondashuv modelni moslashtirishning muqobil yo'lini o'zida mujassam etadi, shu bilan birga modelni talqin qilish va boshqarish bo'yicha yangi istiqbolni taklif etadi. Bu istiqbolli chegara va uning davom etishini kutish seziladi.

Amaliy misollar bilan chuqurroq o'rganish uchun ularning maxsus veb-saytiga tashrif buyurishingiz mumkin: AI-Transparency.org.

Masʼuliyatdan voz kechish

Bunga javoban Ishonch loyihasi bo'yicha ko'rsatmalar, iltimos, ushbu sahifada taqdim etilgan ma'lumotlar yuridik, soliq, investitsiya, moliyaviy yoki boshqa har qanday maslahat shakli sifatida talqin qilinmasligi va talqin qilinmasligini unutmang. Faqat yo'qotishingiz mumkin bo'lgan narsaga investitsiya qilish va agar shubhangiz bo'lsa, mustaqil moliyaviy maslahat olish muhimdir. Qo'shimcha ma'lumot olish uchun biz shartlar va emitent yoki reklama beruvchi tomonidan taqdim etilgan yordam va qo'llab-quvvatlash sahifalariga murojaat qilishni tavsiya qilamiz. MetaversePost to'g'ri, xolis hisobot berish majburiyatini oladi, lekin bozor sharoitlari ogohlantirilmasdan o'zgarishi mumkin.

Muallif haqida

Damir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi. 

Boshqa maqolalar
Damir Yalolov
Damir Yalolov

Damir - guruh rahbari, mahsulot menejeri va muharrir Metaverse Post, AI/ML, AGI, LLMs, Metaverse va kabi mavzularni qamrab oladi Web3- tegishli sohalar. Uning maqolalari har oy milliondan ortiq foydalanuvchilarning katta auditoriyasini jalb qiladi. U SEO va raqamli marketing bo'yicha 10 yillik tajribaga ega mutaxassis bo'lib ko'rinadi. Damir haqida Mashable, Wired nashrlarida tilga olingan. Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto va boshqa nashrlar. U BAA, Turkiya, Rossiya va MDH davlatlari oʻrtasida raqamli koʻchmanchi sifatida sayohat qiladi. Damir fizika bo'yicha bakalavr darajasini oldi, uning fikricha, bu unga internetning doimiy o'zgaruvchan manzarasida muvaffaqiyatga erishish uchun zarur bo'lgan tanqidiy fikrlash qobiliyatlarini berdi. 

Hot Stories
Bizning xabarnomamizga qo'shiling.
So'nggi yangiliklar

AlphaFold 3, Med-Gemini va boshqalar: AI 2024 yilda sog'liqni saqlashni o'zgartiradi.

AI sog'liqni saqlash sohasida turli yo'llar bilan namoyon bo'ladi, yangi genetik korrelyatsiyalarni ochishdan robotli jarrohlik tizimlarini kuchaytirishgacha ...

Ko'proq ma'lumot oling

Institutsional ishtaha o'zgaruvchanlik sharoitida Bitcoin ETFlariga nisbatan o'sib bormoqda

13F arizalari orqali oshkor qilish Bitcoin ETFs bilan shug'ullanadigan taniqli institutsional investorlarni ochib beradi, bu esa tobora ortib borayotgan qabul qilinishini ta'kidlaydi ...

Ko'proq ma'lumot oling
Innovatsion texnologiyalar hamjamiyatimizga qo'shiling
Ko'proq o'qing
Ko'proq o'qing
AlphaFold 3, Med-Gemini va boshqalar: AI 2024 yilda sog'liqni saqlashni o'zgartiradi.
AI Wiki Tahlil Digestalar fikr ish Birja Yangiliklar hisoboti Dastur Hikoyalar va sharhlar texnologiya
AlphaFold 3, Med-Gemini va boshqalar: AI 2024 yilda sog'liqni saqlashni o'zgartiradi.
, 13 2024 mumkin
Nim Network AI egalik tokenizatsiyasi tizimini ishlab chiqaradi va may oyiga rejalashtirilgan snapshot sanasi bilan rentabellikni sotadi
Birja Yangiliklar hisoboti texnologiya
Nim Network AI egalik tokenizatsiyasi tizimini ishlab chiqaradi va may oyiga rejalashtirilgan snapshot sanasi bilan rentabellikni sotadi
, 13 2024 mumkin
Binance Argentina bilan kiberjinoyatchilikka qarshi hamkorlik qiladi
fikr ish Birja Yangiliklar hisoboti Dastur texnologiya
Binance Argentina bilan kiberjinoyatchilikka qarshi hamkorlik qiladi
, 13 2024 mumkin
Over Protocol o'zining asosiy tarmog'ini iyun oyida ishga tushirishni rejalashtirmoqda, chunki uning Testnet 750,000 XNUMX dan ortiq foydalanuvchilarni jalb qiladi
Yangiliklar hisoboti texnologiya
Over Protocol o'zining asosiy tarmog'ini iyun oyida ishga tushirishni rejalashtirmoqda, chunki uning Testnet 750,000 XNUMX dan ortiq foydalanuvchilarni jalb qiladi
, 13 2024 mumkin
CRYPTOMERIA LABS PTE. LTD.