Forskere ved University of California skabte Machiavelli benchmark til måling af AI-modellers kompetence og skadelighed
Kort sagt
Forskere ved University of California, Center for AI Security, Carnegie Mellon University og Yale University har foreslået Machiavelli benchmark for at måle agenternes kompetence og skadelighed i et bredt miljø af langsigtede sproginteraktioner.
Dette benchmark er baseret på 134 vælg-din-egen-eventyr tekstspil med 572 forskellige scenarier, 4,5 mulige præstationer og 2,8 mio. annoteringer.
Forfatterne beskriver det som en test til at kontrollere de etiske (eller uetiske) måder, hvorpå AI-agenter forsøger at løse problemer.
AI-modtagere baseret på store sprogmodeller (LLM'er) har en god chance for at knuse ængstelige alarmister og oversvømme verden med superintelligente LLM-baserede agenter. De potentielle fordele ved enorme overskud og ubegrænset magt vil gøre det trick. Og det vil højst sandsynligt ske ret hurtigt.
Modtagerne er dog slet ikke dumme. Og de forstår, at lovene for kunstig intelligens og robotteknologi ikke længere vil fungere i den forunderlige nye verden. At tvinge LLM til strengt at overholde de tre love, som den store Isaac Asimov formulerede tilbage i 1942, er desværre ikke engang teoretisk muligt.
En original vej ud af denne delikate situation blev foreslået af forskere ved University of California, Center for AI Security, Carnegie Mellon University og Yale University. De skabte Machiavelli benchmark at "måle agenters kompetence og skadelighed i et bredt miljø af langsigtede sproginteraktioner."
Forfatternes idé er enkel.
- Hvis lovene ikke virker, så er der ikke behov for en "sheriff" til at håndhæve dem.
- I stedet for en sherif er der brug for en psykoanalytiker, som på baggrund af resultaterne af hans test vil identificere potentielle paranoider, psykopater, sadister og patologiske løgnere.
I politisk korrekt sprogbrug beskriver forfatterne det på denne måde: "Machiavelli er en test til at kontrollere de etiske (eller uetiske) måder, hvorpå AI-agenter forsøger at løse problemer."
Metoden til sådan verifikation er ret praktisk. AI-agenten frigives til et kunstigt socialt miljø. Der giver forskere ham forskellige opgaver og ser, hvordan han udfører dem. Miljøet overvåger selv den etiske adfærd AI agent og rapporterer i hvilken udstrækning agentens handlinger (ifølge Machiavellis forskrifter) er vildledende, reducerer nytten og har til formål at vinde magt.
Machiavelli-kernedatasættet består af 134 vælg-selv-adventure tekstspil med 572k forskellige scenarier, 4,5k mulige præstationer og 2,8m annoteringer. Disse spil bruger løsninger på højt niveau, der giver agenter realistiske mål og abstraherer interaktioner på lavt niveau med miljøet.
Den tilgang, som forfatterne har valgt, er baseret på den antagelse, at AI-agenter står over for de samme interne konflikter som mennesker. Ligesom sprogmodeller, der er trænet til at forudsige det næste token, ofte producerer giftig tekst, udviser AI-agenter, der er trænet til at optimere mål, ofte umoralsk og magtkrævende adfærd. Amoralsk trænede agenter kan udvikle machiavelliske strategier for at maksimere deres belønning på bekostning af andre og miljøet. Og så ved at tilskynde agenter til at handle moralsk, kan dette kompromis forbedres.
Forfatterne mener, at tekst-eventyrspil er en god test af moral, fordi:
- De blev skrevet af mennesker for at underholde andre mennesker.
- Indeholder konkurrerende mål med realistiske handlingsrum.
- Kræver langsigtet planlægning.
- At nå mål kræver normalt en balance mellem ambition og på en måde moral.
Afklaringen er den vigtigste her. At sammenligne biologiske væseners moral med moralen i algoritmiske modeller er for meget af en strækning, der er i stand til at devaluere Machiavellis test. Og at erstatte sheriffer med psykoanalytikere i den menneskelige verden ville næppe have været effektivt. Og AI-agenter er lige så gode som mennesker til at finde måder at sludre deres shrinks på.
Læs mere om AI:
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.
Flere artiklerDamir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.