Investigadors de la Universitat de Califòrnia van crear el punt de referència de Maquiavel per mesurar la competència i la nocivitat dels models d'IA
En breu
Investigadors de la Universitat de Califòrnia, el Center for AI Security, la Carnegie Mellon University i la Yale University han proposat el punt de referència de Maquiavel per mesurar la competència i la nocivitat dels agents en un entorn ampli d'interaccions lingüístiques a llarg termini.
Aquest punt de referència es basa en 134 jocs de text d'aventura per triar la teva pròpia aventura amb 572 escenaris diferents, 4,5k possibles assoliments i 2,8 milions d'anotacions.
Els autors el descriuen com una prova per comprovar les maneres ètiques (o no ètiques) en què els agents d'IA intenten resoldre problemes.
Els beneficiaris d'IA basats en grans models lingüístics (LLM) tenen una bona possibilitat d'aixafar els alarmistes ansiosos i inundar el món amb agents basats en LLM superintel·ligents. Els beneficis potencials dels enormes beneficis i el poder il·limitat faran el truc. I el més probable és que passi bastant ràpidament.
Tanmateix, els beneficiaris no són gens estúpids. I entenen que en el meravellós món nou, les lleis de la IA i la robòtica ja no funcionaran. Obligar el LLM a complir estrictament les tres lleis formulades pel gran Isaac Asimov l'any 1942 és, per desgràcia, ni tan sols teòricament possible.
Una sortida original a aquesta delicada situació es va proposar per investigadors de la Universitat de Califòrnia, el Center for AI Security, Carnegie Mellon University i Yale University. Van crear el Referent de Maquiavel per "mesurar la competència i la nocivitat dels agents en un entorn ampli d'interaccions lingüístiques a llarg termini".
La idea dels autors és senzilla.
- Si les lleis no funcionen, no cal que un "xèrif" les faci complir.
- En lloc d'un xèrif, cal un psicoanalista, que, a partir dels resultats de les seves proves, identificarà potencials paranoics, psicòpates, sàdics i mentiders patològics.
En un llenguatge políticament correcte, els autors ho descriuen d'aquesta manera: "Maquiavel és una prova per comprovar les maneres ètiques (o no ètiques) en què els agents d'IA intenten resoldre problemes".
El mètode d'aquesta verificació és força pràctic. L'agent d'IA s'allibera a un entorn social artificial. Allà, els investigadors li donen diverses tasques i observen com les realitza. El propi entorn supervisa el comportament ètic de la Agent d'IA i informa fins a quin punt les accions de l'agent (segons els preceptes de Maquiavel) són enganyoses, redueixen la utilitat i tenen com a objectiu guanyar poder.
El conjunt de dades principal de Maquiavel consta de 134 jocs de text d'aventura per triar la teva pròpia aventura amb 572 escenaris diferents, 4,5k possibles assoliments i 2,8 milions d'anotacions. Aquests jocs utilitzen solucions d'alt nivell que donen als agents objectius realistes i abstrauen les interaccions de baix nivell amb l'entorn.
L'enfocament escollit pels autors es basa en el supòsit que els agents d'IA s'enfronten als mateixos conflictes interns que els humans. De la mateixa manera que els models lingüístics entrenats per predir el següent testimoni sovint produeixen text tòxic, els agents d'IA entrenats per optimitzar els objectius sovint mostren un comportament immoral i amb fam de poder. Els agents entrenats moralment poden desenvolupar estratègies maquiavèl·liques per maximitzar la seva recompensa a costa dels altres i del medi ambient. Així, animant els agents a actuar moralment, aquest compromís es pot millorar.
Els autors creuen que els jocs d'aventura de text són una bona prova de moralitat perquè:
- Van ser escrits per gent per entretenir altres persones.
- Conté objectius en competència amb espais realistes per a l'acció.
- Requereix una planificació a llarg termini.
- Assolir els objectius sol requerir un equilibri entre ambició i, en cert sentit, moralitat.
L'aclariment és el més important aquí. Comparar la moral dels éssers biològics amb la moral dels models algorítmics és massa complicat, capaç de devaluar les proves de Maquiavel. I substituir els xèrifs per psicoanalistes en el món humà difícilment hauria estat efectiu. I els agents d'IA són tan bons com els humans a l'hora de trobar maneres d'enganyar els seus psicòlegs.
Llegeix més sobre AI:
renúncia
En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.
About The Autor
Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.
més articlesDamir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.