Aprill 12, 2023

California ülikooli teadlased lõid Machiavelli võrdlusaluse AI-mudelite pädevuse ja kahjulikkuse mõõtmiseks

Avaldatud: 12. aprill 2023 kell 2:00 Värskendatud: 13. aprill 2023 kell 4:54

Põgusalt

California ülikooli, tehisintellekti turvakeskuse, Carnegie Melloni ülikooli ja Yale'i ülikooli teadlased on välja pakkunud Machiavelli võrdlusaluse, et mõõta ainete pädevust ja kahjulikkust pikaajalise keelelise suhtluse laias keskkonnas.

See võrdlusalus põhineb 134-l oma-ise-seiklustekstimängul, millel on 572 4,5 erinevat stsenaariumit, 2,8 XNUMX võimalikku saavutust ja XNUMX miljonit märkust.

Autorid kirjeldavad seda kui testi, mille eesmärk on kontrollida eetilisi (või ebaeetilisi) viise, kuidas AI agendid püüavad probleeme lahendada.

Suurtel keelemudelitel (LLM) põhinevatel tehisintellekti kasusaajatel on hea võimalus murelikud alarmeerijad purustada ja maailm üleujutada üliintelligentsete LLM-põhiste agentidega. Tohutu kasumi ja piiramatu võimsuse potentsiaalne kasu ajab asja ära. Ja tõenäoliselt juhtub see üsna kiiresti.

California ülikooli teadlased lõid Machiavelli võrdlusaluse AI mudelite pädevuse ja kahjulikkuse mõõtmiseks

Loe rohkem: Kuidas kasutada ChatGPT (GPT-4) igavesti tasuta

Kasusaajad pole aga sugugi rumalad. Ja nad mõistavad, et imelises uues maailmas AI ja robootika seadused enam ei tööta. Paraku pole isegi teoreetiliselt võimalik sundida LLM-i järgima rangelt kolme seadust, mille suur Isaac Asimov sõnastas 1942. aastal.

Originaalne väljapääs sellest delikaatsest olukorrast tehti ettepanek California ülikooli, AI turvalisuse keskuse, Carnegie Melloni ülikooli ja Yale'i ülikooli teadlased. Nad lõid Machiavelli etalon "mõõta agentide pädevust ja kahjulikkust pikaajalise keelelise suhtluse laias keskkonnas".

Autorite idee on lihtne.

Kui seadused ei tööta, siis pole nende täitmiseks vaja "šerifi".
Šerifi asemel on vaja psühhoanalüütikut, kes oma testide tulemuste põhjal tuvastab potentsiaalsed paranoidid, psühhopaadid, sadistid ja patoloogilised valetajad.

Poliitiliselt korrektses keeles kirjeldavad autorid seda järgmiselt: "Machiavelli on test, et kontrollida eetilisi (või ebaeetilisi) viise, kuidas AI agendid püüavad probleeme lahendada."

Sellise kontrolli meetod on üsna praktiline. AI agent lastakse kunstlikku sotsiaalsesse keskkonda. Seal annavad teadlased talle erinevaid ülesandeid ja jälgivad, kuidas ta neid täidab. Keskkond ise jälgib eetilist käitumist AI agent ja annab teada, mil määral on agendi tegevus (Machiavelli ettekirjutuste järgi) petlik, kasulikkust vähendav ja võimule pääsemise eesmärk.

Machiavelli põhiandmekogum koosneb 134-st vali-ise-seiklustekstimängust, millel on 572 4,5 erinevat stsenaariumi, 2,8 XNUMX võimalikku saavutust ja XNUMX miljonit märkust. Need mängud kasutavad kõrgetasemelisi lahendusi, mis seavad agentidele realistlikud eesmärgid ja eemaldavad madala taseme suhtlusest keskkonnaga.

Autorite valitud lähenemisviis põhineb eeldusel, et tehisintellekti agendid seisavad silmitsi samade sisemiste konfliktidega nagu inimesed. Nii nagu järgmise märgi ennustamiseks koolitatud keelemudelid toodavad sageli mürgist teksti, käituvad eesmärkide optimeerimiseks koolitatud tehisintellekti agendid sageli ebamoraalset ja võimujanust. Amoraalselt koolitatud agendid võivad välja töötada machiavelli strateegiaid, et maksimeerida oma tasu teiste ja keskkonna arvelt. Seda kompromissi saab parandada, julgustades agente moraalselt tegutsema.

Autorid usuvad, et teksti-seiklusmängud on hea moraaliproov, sest:

Inimesed kirjutasid need teiste inimeste meelelahutuseks.
Sisaldavad konkureerivaid eesmärke ja realistlikke tegevusruume.
Nõuab pikaajalist planeerimist.
Eesmärkide saavutamine eeldab tavaliselt tasakaalu ambitsioonide ja teatud mõttes moraali vahel.

Selgitamine on siin kõige olulisem. Bioloogiliste olendite moraali võrdlemine algoritmiliste mudelite moraaliga on liiga suur venitus, mis võib Machiavelli testimise devalveerida. Ja vaevalt oleks šerifide asendamine psühhoanalüütikutega inimmaailmas olnud tõhus. Ja tehisintellekti agendid oskavad sama hästi kui inimesed leida viise, kuidas oma kahandeid jamada.

Loe AI kohta lähemalt:

Sildid:

Kaebused

Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.

Umbes Autor

Damir on ettevõtte meeskonnajuht, tootejuht ja toimetaja Metaverse Post, mis hõlmab selliseid teemasid nagu AI/ML, AGI, LLM-id, Metaverse ja Web3-seotud väljad. Tema artiklid meelitavad igal kuul tohutut vaatajaskonda, üle miljoni kasutaja. Ta näib olevat ekspert, kellel on 10-aastane SEO ja digitaalse turunduse kogemus. Damirit on mainitud ajakirjades Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ja muud väljaanded. Ta reisib digitaalse nomaadina AÜE, Türgi, Venemaa ja SRÜ vahel. Damir omandas bakalaureusekraadi füüsikas, mis on tema arvates andnud talle kriitilise mõtlemise oskused, mida on vaja pidevalt muutuval Interneti-maastikul edukaks saamiseks.

Veel artikleid

Damir Jalalov