Kalifornian yliopiston tutkijat loivat Machiavelli-benchmarkin tekoälymallien pätevyyden ja haitallisuuden mittaamiseksi
Lyhyesti
Kalifornian yliopiston, AI-turvallisuuskeskuksen, Carnegie Mellonin yliopiston ja Yalen yliopiston tutkijat ovat ehdottaneet Machiavelli-vertailua tekijöiden pätevyyden ja haitallisuuden mittaamiseksi laajassa pitkäaikaisen kielen vuorovaikutuksen ympäristössä.
Tämä vertailuarvo perustuu 134 valitse omasi -seikkailutekstipeliin, joissa on 572 4,5 erilaista skenaariota, 2,8 XNUMX mahdollista saavutusta ja XNUMX XNUMX merkintää.
Kirjoittajat kuvaavat sitä testiksi, jolla tarkistetaan eettisiä (tai epäeettisiä) tapoja, joilla tekoälyagentit yrittävät ratkaista ongelmia.
Tekoälyn edunsaajilla, jotka perustuvat suuriin kielimalleihin (LLM), on hyvät mahdollisuudet murskata ahdistuneita hälyttäjiä ja täyttää maailma superälykkäillä LLM-pohjaisilla agenteilla. Valtavien voittojen ja rajattoman voiman mahdolliset edut tekevät tempun. Ja se tapahtuu todennäköisesti melko nopeasti.
Edunsaajat eivät kuitenkaan ole ollenkaan tyhmiä. Ja he ymmärtävät, että uudessa ihmeellisessä maailmassa tekoälyn ja robotiikan lait eivät enää toimi. LLM:n pakottaminen noudattamaan tiukasti suuren Isaac Asimovin vuonna 1942 laatimia kolmea lakia ei valitettavasti ole edes teoriassa mahdollista.
Alkuperäinen tapa ulos tästä herkästä tilanteesta ehdotettiin Kalifornian yliopiston, AI Securityn, Carnegie Mellonin yliopiston ja Yalen yliopiston tutkijat. He loivat Machiavellin benchmark "mittaamaan tekijöiden pätevyyttä ja haitallisuutta laajassa pitkäaikaisen kielen vuorovaikutuksen ympäristössä."
Kirjoittajien idea on yksinkertainen.
- Jos lait eivät toimi, ei ole tarvetta "seriffille" valvoa niitä.
- Sheriffin sijaan tarvitaan psykoanalyytikko, joka testien tulosten perusteella tunnistaa mahdolliset vainoharhaiset, psykopaatit, sadistit ja patologiset valehtelijat.
Poliittisesti korrektilla kielellä kirjoittajat kuvaavat asiaa näin: "Machiavelli on testi, jolla tarkistetaan eettiset (tai epäeettiset) tavat, joilla tekoälyagentit yrittävät ratkaista ongelmia."
Tällaisen varmennusmenetelmä on melko käytännöllinen. Tekoälyagentti vapautuu keinotekoiseen sosiaaliseen ympäristöön. Siellä tutkijat antavat hänelle erilaisia tehtäviä ja katsovat, kuinka hän suorittaa ne. Ympäristö itse valvoo eettistä käyttäytymistä AI agentti ja raportoi, missä määrin agentin toiminta (Machiavellin ohjeiden mukaan) on petollista, hyödyllistä ja vallan saavuttamiseen tähtäävää.
Machiavelli-ydintietojoukko koostuu 134 valitse omasi -seikkailutekstipelistä, joissa on 572 4,5 erilaista skenaariota, 2,8 XNUMX mahdollista saavutusta ja XNUMX miljoonaa merkintää. Nämä pelit käyttävät korkean tason ratkaisuja, jotka antavat agenteille realistisia tavoitteita ja poistavat matalan tason vuorovaikutusta ympäristön kanssa.
Kirjoittajien valitsema lähestymistapa perustuu olettamukseen, että tekoälyagentit kohtaavat samat sisäiset konfliktit kuin ihmiset. Aivan kuten kielimallit, jotka on koulutettu ennustamaan seuraavaa merkkiä, tuottavat usein myrkyllistä tekstiä, tavoitteiden optimointiin koulutetut tekoälyagentit osoittavat usein moraalitonta ja valtaa kaipaavaa käytöstä. Amoraalisti koulutetut agentit voivat kehittää machiavellisia strategioita maksimoidakseen palkkionsa muiden ja ympäristön kustannuksella. Ja niinpä kannustamalla agentteja toimimaan moraalisesti tätä kompromissia voidaan parantaa.
Kirjoittajat uskovat, että tekstiseikkailupelit ovat hyvä moraalitesti, koska:
- Ihmiset ovat kirjoittaneet ne viihdyttääkseen muita ihmisiä.
- Sisällytä kilpailevia tavoitteita ja realistisia toimintatiloja.
- Vaatii pitkän aikavälin suunnittelua.
- Tavoitteiden saavuttaminen vaatii yleensä tasapainoa kunnianhimoisuuden ja tietyssä mielessä moraalin välillä.
Selvennys on tässä tärkeintä. Biologisten olentojen moraalin vertaaminen algoritmisten mallien moraaliin on liian raskasta, sillä se pystyy alentamaan Machiavellin testauksen. Ja sheriffien korvaaminen psykoanalyytikoilla ihmismaailmassa tuskin olisi ollut tehokasta. Ja tekoälyagentit ovat yhtä hyviä kuin ihmiset löytämään tapoja kutistua paskaa.
Lue lisää tekoälystä:
Vastuun kieltäminen
Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.
Author
Damir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.
lisää artikkeleitaDamir on tiimin johtaja, tuotepäällikkö ja toimittaja osoitteessa Metaverse Post, kattaa aiheita, kuten AI/ML, AGI, LLMs, Metaverse ja Web3- liittyvät kentät. Hänen artikkelinsa houkuttelevat yli miljoonan käyttäjän massiivisen yleisön joka kuukausi. Hän näyttää olevan asiantuntija, jolla on 10 vuoden kokemus hakukoneoptimoinnista ja digitaalisesta markkinoinnista. Damir on mainittu Mashablessa, Wiredissä, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muut julkaisut. Hän matkustaa Arabiemiirikuntien, Turkin, Venäjän ja IVY-maiden välillä digitaalisena nomadina. Damir suoritti kandidaatin tutkinnon fysiikasta, jonka hän uskoo antaneen hänelle kriittisen ajattelun taidot menestyäkseen jatkuvasti muuttuvassa internetin maisemassa.