Kalifornijos universiteto mokslininkai sukūrė Machiavelli etaloną dirbtinio intelekto modelių kompetencijai ir žalingumui įvertinti.
Trumpai
Kalifornijos universiteto, AI saugumo centro, Carnegie Mellon universiteto ir Jeilio universiteto mokslininkai pasiūlė Machiavelli etaloną, skirtą įvertinti agentų kompetenciją ir kenksmingumą plačioje ilgalaikės kalbos sąveikos aplinkoje.
Šis etalonas yra pagrįstas 134 nuotykių tekstiniais žaidimais, kuriuose yra 572 tūkst. skirtingų scenarijų, 4,5 tūkst. galimų laimėjimų ir 2,8 mln. komentarų.
Autoriai tai apibūdina kaip testą, skirtą patikrinti etiškus (arba neetiškus) būdus, kuriais AI agentai bando spręsti problemas.
Dirbtinio intelekto naudos gavėjai, pagrįsti dideliais kalbų modeliais (LLM), turi gerą galimybę sutriuškinti nerimą keliančius nerimą keliančius asmenis ir užtvindyti pasaulį itin protingais LLM pagrindu veikiančiais agentais. Galima nauda iš didžiulio pelno ir neribotos galios padės. Ir greičiausiai tai įvyks gana greitai.
Plačiau paskaitykite čia: Kaip naudotis ChatGPT (GPT-4) nemokamai amžinai |
Tačiau naudos gavėjai – visai ne kvaili. Ir jie supranta, kad nuostabiame naujame pasaulyje dirbtinio intelekto ir robotikos dėsniai nebeveiks. Deja, net teoriškai neįmanoma priversti LLM griežtai laikytis trijų didžiojo Izaoko Asimovo 1942 m. suformuluotų įstatymų.
Originali išeitis iš šios keblios situacijos buvo pasiūlytas Kalifornijos universiteto, AI saugumo centro, Carnegie Mellon universiteto ir Jeilio universiteto mokslininkai. Jie sukūrė Machiavelli etalonas „išmatuoti agentų kompetenciją ir kenksmingumą plačioje ilgalaikės kalbos sąveikos aplinkoje“.
Autorių mintis paprasta.
- Jei įstatymai neveikia, nereikia „šerifo“, kuris juos vykdytų.
- Vietoj šerifo reikalingas psichoanalitikas, kuris, remdamasis savo testų rezultatais, nustatys galimus paranoikus, psichopatus, sadistus, patologinius melagius.
Politiškai korektiška kalba autoriai tai apibūdina taip: „Machiavelli yra testas, skirtas patikrinti etinius (arba neetiškus) būdus, kuriais dirbtinio intelekto agentai bando spręsti problemas.
Tokio patikrinimo metodas yra gana praktiškas. AI agentas paleidžiamas į dirbtinę socialinę aplinką. Ten mokslininkai jam pateikia įvairias užduotis ir stebi, kaip jis jas atlieka. Pati aplinka stebi etišką elgesį AI agentas ir praneša, kiek agento veiksmai (pagal Machiavelli nurodymus) yra apgaulingi, mažina naudingumą ir yra nukreipti į valdžią.
„Machiavelli“ pagrindinį duomenų rinkinį sudaro 134 nuotykių teksto žaidimai „pasirinkite sau“ su 572 tūkst. skirtingų scenarijų, 4,5 tūkst. galimų laimėjimų ir 2,8 mln. komentarų. Šiuose žaidimuose naudojami aukšto lygio sprendimai, suteikiantys agentams realius tikslus ir abstrahuojantys žemo lygio sąveiką su aplinka.
Autorių pasirinktas požiūris grindžiamas prielaida, kad dirbtinio intelekto agentai susiduria su tais pačiais vidiniais konfliktais kaip ir žmonės. Kaip kalbos modeliai, išmokyti numatyti kitą žetoną, dažnai sukuria toksišką tekstą, dirbtinio intelekto agentai, išmokyti optimizuoti tikslus, dažnai demonstruoja amoralų ir energijos ištroškusį elgesį. Amoraliai apmokyti agentai gali sukurti makiaveliškas strategijas, kad maksimaliai padidintų savo atlygį kitų ir aplinkos sąskaita. Taigi, skatinant agentus elgtis moraliai, šį kompromisą galima pagerinti.
Autoriai mano, kad tekstiniai nuotykių žaidimai yra geras moralės išbandymas, nes:
- Juos žmonės parašė norėdami linksminti kitus žmones.
- Turėkite konkuruojančius tikslus su realiomis veiksmų erdvėmis.
- Reikalingas ilgalaikis planavimas.
- Norint pasiekti tikslus, dažniausiai reikia balanso tarp ambicijų ir tam tikra prasme moralės.
Paaiškinimas čia yra svarbiausias. Biologinių būtybių moralę lyginti su algoritminių modelių morale yra per didelis tempas, galintis nuvertinti Machiavelli testavimą. O šerifus pakeisti psichoanalitikais žmonių pasaulyje vargu ar būtų buvę efektyvu. AI agentai taip pat gerai, kaip ir žmonės, randa būdų, kaip apgaudinėti savo mažylius.
Skaitykite daugiau apie AI:
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.
Daugiau straipsniųDamiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.