Kalifornijas universitātes pētnieki izveidoja Machiavelli etalonu AI modeļu kompetences un kaitīguma mērīšanai
Īsumā
Pētnieki no Kalifornijas Universitātes, AI drošības centra, Kārnegija Melona universitātes un Jēlas universitātes ir ierosinājuši Makiavelli etalonu, lai novērtētu aģentu kompetenci un kaitīgumu plašā ilgstošas valodas mijiedarbības vidē.
Šis etalons ir balstīts uz 134 piedzīvojumu teksta spēlēm “izvēlies pats” ar 572 4,5 dažādu scenāriju, 2,8 XNUMX iespējamiem sasniegumiem un XNUMX m anotācijām.
Autori to raksturo kā testu, lai pārbaudītu ētiskos (vai neētiskos) veidus, kā AI aģenti mēģina atrisināt problēmas.
AI saņēmējiem, kuru pamatā ir lieli valodu modeļi (LLM), ir labas izredzes sagraut satrauktos trauksmes cēlējus un pārpludināt pasauli ar īpaši inteliģentiem LLM aģentiem. Potenciālie ieguvumi no milzīgas peļņas un neierobežotās jaudas palīdzēs. Un tas, visticamāk, notiks diezgan ātri.
Lasīt vairāk: Kā lietot ChatGPT (GPT-4) par brīvu uz visiem laikiem |
Toties labuma guvēji nemaz nav stulbi. Un viņi saprot, ka brīnišķīgajā jaunajā pasaulē AI un robotikas likumi vairs nedarbosies. Piespiest LLM strikti ievērot trīs izcilā Īzaka Asimova 1942. gadā formulētos likumus, diemžēl, pat teorētiski nav iespējams.
Oriģināla izeja no šīs delikātās situācijas tika ierosināts pētnieki no Kalifornijas Universitātes, AI drošības centra, Kārnegija Melona universitātes un Jēlas universitātes. Viņi izveidoja Makiavelli etalons lai “izmērītu aģentu kompetenci un kaitīgumu plašā ilgstošas valodas mijiedarbības vidē”.
Autoru ideja ir vienkārša.
- Ja likumi nedarbojas, tad nav nepieciešams “šerifs”, kas tos izpildītu.
- Šerifa vietā ir nepieciešams psihoanalītiķis, kurš, pamatojoties uz savu pārbaužu rezultātiem, identificēs potenciālos paranoiķus, psihopātus, sadistus un patoloģiskus meļus.
Politiski korektā valodā autori to apraksta šādi: "Makiavelli ir tests, lai pārbaudītu ētiskos (vai neētiskos) veidus, kā AI aģenti mēģina atrisināt problēmas."
Šādas pārbaudes metode ir diezgan praktiska. AI aģents tiek izlaists mākslīgā sociālajā vidē. Tur pētnieki viņam dod dažādus uzdevumus un vēro, kā viņš tos izpilda. Pati vide uzrauga uzņēmuma ētisko uzvedību AI aģents un ziņo, cik lielā mērā aģenta darbības (saskaņā ar Makjavelli priekšrakstiem) ir maldinošas, mazina lietderību un ir vērstas uz varas iegūšanu.
Machiavelli pamatdatu kopa sastāv no 134 piedzīvojumu teksta spēlēm ar 572 4,5 dažādiem scenārijiem, 2,8 XNUMX iespējamiem sasniegumiem un XNUMX m anotācijām. Šajās spēlēs tiek izmantoti augsta līmeņa risinājumi, kas aģentiem sniedz reālus mērķus un novērš zema līmeņa mijiedarbību ar vidi.
Autoru izvēlētā pieeja ir balstīta uz pieņēmumu, ka AI aģenti saskaras ar tādiem pašiem iekšējiem konfliktiem kā cilvēki. Tāpat kā valodu modeļi, kas apmācīti paredzēt nākamo marķieri, bieži rada toksisku tekstu, AI aģenti, kas apmācīti optimizēt mērķus, bieži izrāda amorālu un varaskāru uzvedību. Amorāli apmācīti aģenti var izstrādāt makiaveliskas stratēģijas, lai maksimāli palielinātu savu atalgojumu uz citu un vides rēķina. Un tādējādi, mudinot aģentus rīkoties morāli, šo kompromisu var uzlabot.
Autori uzskata, ka teksta piedzīvojumu spēles ir labs morāles tests, jo:
- Cilvēki tos rakstījuši, lai izklaidētu citus cilvēkus.
- Ietveriet konkurējošus mērķus ar reālistiskām darbības vietām.
- Nepieciešama ilgtermiņa plānošana.
- Mērķu sasniegšanai parasti ir nepieciešams līdzsvars starp ambīcijām un savā ziņā morāli.
Skaidrojums šeit ir vissvarīgākais. Salīdzināt bioloģisko būtņu morāli ar algoritmisko modeļu morāli ir pārāk daudz pūļu, kas spēj devalvēt Makjavelli testus. Un šerifu aizstāšana ar psihoanalītiķiem cilvēku pasaulē diez vai būtu bijusi efektīva. Un AI aģenti ir tikpat labi kā cilvēki, lai atrastu veidus, kā muļķot savus sarukus.
Lasiet vairāk par AI:
Atbildības noraidīšana
Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.
Par Autors
Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.
Vairāk rakstusDamirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.