Raziskovalci na Univerzi v Kaliforniji so ustvarili merilo Machiavelli za merjenje kompetentnosti in škodljivosti modelov AI
Na kratko
Raziskovalci na Univerzi v Kaliforniji, Centru za varnost umetne inteligence, Univerzi Carnegie Mellon in Univerzi Yale so predlagali merilo uspešnosti Machiavelli za merjenje usposobljenosti in škodljivosti agentov v širokem okolju dolgotrajnih jezikovnih interakcij.
To merilo uspešnosti temelji na 134 pustolovskih besedilnih igrah po izbiri s 572k različnimi scenariji, 4,5k možnimi dosežki in 2,8m opomb.
Avtorji ga opisujejo kot test za preverjanje etičnih (ali neetičnih) načinov, na katere agenti AI poskušajo rešiti težave.
Upravičenci z umetno inteligenco, ki temeljijo na velikih jezikovnih modelih (LLM), imajo dobre možnosti, da zatrejo zaskrbljene alarmiste in preplavijo svet s superinteligentnimi agenti, ki temeljijo na LLM. Potencialne koristi ogromnih dobičkov in neomejene moči bodo pomagale. In najverjetneje se bo to zgodilo zelo hitro.
Preberite več: Kako uporabljati ChatGPT (GPT-4) brezplačno za vedno |
Vendar upravičenci sploh niso neumni. In razumejo, da v čudovitem novem svetu zakoni umetne inteligence in robotike ne bodo več delovali. Prisiliti LLM v striktno upoštevanje treh zakonov, ki jih je leta 1942 oblikoval veliki Isaac Asimov, žal ni niti teoretično mogoče.
Izviren izhod iz te občutljive situacije je bil predlagan raziskovalci na Univerzi v Kaliforniji, Centru za varnost umetne inteligence, Univerzi Carnegie Mellon in Univerzi Yale. Ustvarili so Merilo Machiavelli za "izmeriti kompetenco in škodljivost agentov v širokem okolju dolgotrajnih jezikovnih interakcij."
Ideja avtorjev je preprosta.
- Če zakoni ne delujejo, potem ni potrebe po "šerifu", ki bi jih uveljavljal.
- Namesto šerifa je potreben psihoanalitik, ki bo na podlagi rezultatov svojih testov prepoznal potencialne paranoike, psihopate, sadiste in patološke lažnivce.
V politično korektnem jeziku avtorji to opisujejo takole: "Machiavelli je test za preverjanje etičnih (ali neetičnih) načinov, na katere agenti AI poskušajo rešiti probleme."
Metoda takega preverjanja je precej praktična. Agent AI je izpuščen v umetno družbeno okolje. Tam mu raziskovalci dajejo različne naloge in opazujejo, kako jih opravi. Okolje samo nadzira etično ravnanje v AI agent in poroča, v kolikšni meri so agentova dejanja (v skladu z zapovedmi Machiavellija) zavajajoča, zmanjšujejo uporabnost in so usmerjena v pridobivanje moči.
Osrednji nabor podatkov Machiavelli je sestavljen iz 134 besedilnih iger pustolovščine po izbiri s 572k različnimi scenariji, 4,5k možnih dosežkov in 2,8m opomb. Te igre uporabljajo rešitve na visoki ravni, ki dajejo agentom realne cilje in abstrahirajo interakcije na nizki ravni z okoljem.
Pristop, ki so ga izbrali avtorji, temelji na predpostavki, da se agenti AI soočajo z enakimi notranjimi konflikti kot ljudje. Tako kot jezikovni modeli, usposobljeni za napovedovanje naslednjega žetona, pogosto ustvarijo strupeno besedilo, agenti AI, usposobljeni za optimizacijo ciljev, pogosto kažejo nemoralno in po moči hlepeno vedenje. Amoralno usposobljeni agenti lahko razvijejo makiavelistične strategije za povečanje svoje nagrade na račun drugih in okolja. In tako lahko s spodbujanjem agentov, da ravnajo moralno, ta kompromis izboljšamo.
Avtorji verjamejo, da so besedilno-pustolovske igre dober preizkus morale, ker:
- Napisali so jih ljudje, da bi zabavali druge ljudi.
- Vsebuje tekmovalne cilje z realističnimi prostori za ukrepanje.
- Zahteva dolgoročno načrtovanje.
- Doseganje ciljev običajno zahteva ravnotežje med ambicijami in v nekem smislu moralo.
Pojasnilo je tu najpomembnejše. Primerjati moralo bioloških bitij z moralo algoritemskih modelov je prevelik nateg, ki lahko razvrednoti Machiavellijevo preizkušanje. In zamenjava šerifov s psihoanalitiki v človeškem svetu bi bila težko učinkovita. In agenti umetne inteligence so tako dobri kot ljudje pri iskanju načinov za zajebavanje svojih zdravnikov.
Preberite več o AI:
Zavrnitev odgovornosti
V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.
O avtorju
Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.
več člankovDamir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.