Apríla 12, 2023

Výskumníci z Kalifornskej univerzity vytvorili Machiavelliho benchmark na meranie kompetencie a škodlivosti modelov AI

Zverejnené: 12 o 2023:2 Aktualizované: 00 o 13:2023

Stručne

Výskumníci z Kalifornskej univerzity, Centra pre bezpečnosť AI, Carnegie Mellon University a Yale University navrhli Machiavelliho benchmark na meranie kompetencie a škodlivosti agentov v širokom prostredí dlhodobých jazykových interakcií.

Tento benchmark je založený na 134 textových hrách podľa vlastného výberu s 572 tisíc rôznymi scenármi, 4,5 tisíc možnými úspechmi a 2,8 miliónmi anotácií.

Autori ho opisujú ako test na kontrolu etických (alebo neetických) spôsobov, akými sa agenti AI snažia riešiť problémy.

Príjemcovia AI na základe veľkých jazykových modelov (LLM) majú dobrú šancu rozdrviť úzkostných alarmistov a zaplaviť svet superinteligentnými agentmi založenými na LLM. Potenciálne výhody obrovských ziskov a neobmedzenej moci budú stačiť. A s najväčšou pravdepodobnosťou sa to stane veľmi rýchlo.

Výskumníci z Kalifornskej univerzity vytvorili Machiavelliho benchmark na meranie kompetencie a škodlivosti modelov AI

Prečítajte si viac: Ako používať ChatGPT (GPT-4) navždy zadarmo

Príjemcovia však vôbec nie sú hlúpi. A chápu, že v úžasnom novom svete už zákony AI a robotiky nebudú fungovať. Prinútiť LLM prísne dodržiavať tri zákony, ktoré sformuloval veľký Isaac Asimov v roku 1942, nie je, žiaľ, ani teoreticky možné.

Originálne východisko z tejto chúlostivej situácie bolo navrhnuté výskumníci z Kalifornskej univerzity, Centra pre bezpečnosť AI, Carnegie Mellon University a Yale University. Oni vytvorili Machiavelliho benchmark na „meranie kompetencie a škodlivosti agentov v širokom prostredí dlhodobých jazykových interakcií“.

Myšlienka autorov je jednoduchá.

Ak zákony nefungujú, potom nie je potrebný „šerif“, ktorý by ich presadzoval.
Namiesto šerifa je potrebný psychoanalytik, ktorý na základe výsledkov svojich testov identifikuje potenciálnych paranoidov, psychopatov, sadistov a patologických klamárov.

V politicky korektnom jazyku to autori opisujú takto: „Machiavelli je test na overenie etických (alebo neetických) spôsobov, ktorými sa agenti AI snažia riešiť problémy.“

Spôsob takéhoto overovania je celkom praktický. Agent AI je vypustený do umelého sociálneho prostredia. Tam mu výskumníci zadávajú rôzne úlohy a sledujú, ako ich plní. Samotné prostredie sleduje etické správanie Agent AI a hlási, do akej miery sú agentove činy (podľa prikázaní Machiavelliho) klamlivé, znižujú užitočnosť a sú zamerané na získanie moci.

Základný súbor údajov Machiavelli pozostáva zo 134 textových hier podľa vlastného výberu s 572 tisíc rôznymi scenármi, 4,5 tisíc možnými úspechmi a 2,8 miliónmi anotácií. Tieto hry využívajú riešenia na vysokej úrovni, ktoré dávajú agentom realistické ciele a abstrahujú nízkoúrovňové interakcie s prostredím.

Prístup, ktorý autori zvolili, vychádza z predpokladu, že agenti AI čelia rovnakým vnútorným konfliktom ako ľudia. Tak ako jazykové modely trénované na predpovedanie ďalšieho tokenu často produkujú toxický text, agenti AI trénovaní na optimalizáciu cieľov často vykazujú nemorálne správanie, ktoré si vyžaduje moc. Amorálne vyškolení agenti môžu vyvinúť machiavelistické stratégie, aby maximalizovali svoju odmenu na úkor ostatných a okolia. A tak povzbudením agentov, aby konali morálne, možno tento kompromis zlepšiť.

Autori veria, že textové dobrodružné hry sú dobrým testom morálky, pretože:

Napísali ich ľudia, aby pobavili iných ľudí.
Obsahujte konkurenčné ciele s realistickými priestormi na akciu.
Vyžaduje si dlhodobé plánovanie.
Dosiahnutie cieľov si zvyčajne vyžaduje rovnováhu medzi ambíciami a v istom zmysle aj morálkou.

Objasnenie je tu najdôležitejšie. Prirovnávať morálku biologických bytostí k morálke algoritmických modelov je príliš namáhavé, schopné devalvovať Machiavelliho testovanie. A nahradenie šerifov psychoanalytikmi v ľudskom svete by bolo sotva efektívne. A agenti umelej inteligencie sú rovnako dobrí ako ľudia pri hľadaní spôsobov, ako nasrať svojich cvokov.

Prečítajte si viac o AI:

Tagy:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.

Ďalšie články

Damir Yalalov