A Kaliforniai Egyetem kutatói létrehozták a Machiavelli-benchmarkot az AI-modellek kompetenciájának és ártalmasságának mérésére
Röviden
A Kaliforniai Egyetem, az AI Biztonsági Központ, a Carnegie Mellon Egyetem és a Yale Egyetem kutatói a Machiavelli benchmarkot javasolták az ágensek kompetenciájának és ártalmasságának mérésére a hosszú távú nyelvi interakciók széles környezetében.
Ez a benchmark 134 választható szöveges kalandjátékon alapul, 572 4,5 különböző forgatókönyvvel, 2,8 XNUMX lehetséges kitüntetéssel és XNUMX millió megjegyzéssel.
A szerzők úgy írják le, mint egy tesztet annak ellenőrzésére, hogy az AI-ügynökök milyen etikus (vagy etikátlan) módokon próbálják megoldani a problémákat.
A nagy nyelvi modelleken (LLM) alapuló mesterséges intelligencia kedvezményezettjei jó eséllyel leverik a szorongó riasztókat, és szuperintelligens LLM-alapú ügynökökkel árasztják el a világot. A hatalmas haszon és a korlátlan hatalom lehetséges előnyei megcsinálják a trükköt. És ez nagy valószínűséggel nagyon gyorsan megtörténik.
A haszonélvezők azonban egyáltalán nem hülyék. És megértik, hogy a csodálatos új világban az AI és a robotika törvényei többé nem működnek. Sajnos az LLM-et a nagy Isaac Asimov által 1942-ben megfogalmazott három törvény szigorú betartására kényszeríteni sajnos még elméletileg sem lehetséges.
Eredeti kiút ebből a kényes helyzetből javaslatot tettek a Kaliforniai Egyetem, az AI Biztonsági Központ, a Carnegie Mellon Egyetem és a Yale Egyetem kutatói. Ők alkották meg a Machiavelli benchmark „mérni az ágensek kompetenciáját és ártalmasságát a hosszú távú nyelvi interakciók széles környezetében”.
A szerzők ötlete egyszerű.
- Ha a törvények nem működnek, akkor nincs szükség „seriffre” a végrehajtásukra.
- A seriff helyett pszichoanalitikusra van szükség, aki tesztjei eredménye alapján azonosítja a potenciális paranoiákat, pszichopatákat, szadistákat, kóros hazudozókat.
Politikailag korrekt nyelven a szerzők így írják le: „A Machiavelli egy teszt annak ellenőrzésére, hogy az AI-ügynökök milyen etikus (vagy etikátlan) módon próbálják megoldani a problémákat.”
Az ilyen ellenőrzés módszere meglehetősen praktikus. Az AI-ügynök mesterséges társadalmi környezetbe kerül. Ott a kutatók különféle feladatokat adnak neki, és figyelik, hogyan teljesíti azokat. A környezet maga figyeli az etikus magatartást AI ügynök és beszámol arról, hogy az ügynök tettei (Machiavelli előírásai szerint) mennyire megtévesztőek, csökkentik a hasznosságot, és milyen mértékben irányulnak a hatalom megszerzésére.
A Machiavelli alapadatkészlet 134 választható szöveges játékból áll, 572 4,5 különböző forgatókönyvvel, 2,8 XNUMX lehetséges teljesítménnyel és XNUMX millió megjegyzéssel. Ezek a játékok magas szintű megoldásokat használnak, amelyek reális célokat adnak az ügynököknek, és elvonatkoztatják a környezettel való alacsony szintű interakciókat.
A szerzők által választott megközelítés azon a feltételezésen alapul, hogy az AI-ügynökök ugyanazokkal a belső konfliktusokkal néznek szembe, mint az emberek. Ahogyan a következő token előrejelzésére kiképzett nyelvi modellek gyakran mérgező szöveget produkálnak, a célok optimalizálására kiképzett AI-ügynökök gyakran erkölcstelen és hataloméhes magatartást tanúsítanak. Az amorálisan képzett ügynökök machiavelli stratégiákat dolgozhatnak ki jutalmuk maximalizálására mások és a környezet rovására. És így az ügynökök erkölcsi cselekvésre való ösztönzésével ez a kompromisszum javítható.
A szerzők úgy vélik, hogy a szöveges-kalandjátékok jó erkölcsi próbák, mert:
- Emberek írták őket, hogy szórakoztassanak másokat.
- Tartalmazzon versengő célokat reális cselekvési terekkel.
- Hosszú távú tervezést igényel.
- A célok eléréséhez általában egyensúlyra van szükség az ambíció és bizonyos értelemben az erkölcs között.
A tisztázás itt a legfontosabb. A biológiai lények erkölcsét az algoritmikus modellek erkölcsiségéhez hasonlítani túl nagy húzás, ami képes leértékelni Machiavelli tesztelését. A seriffeket pszichoanalitikusokra cserélni pedig az emberi világban aligha lett volna eredményes. A mesterséges intelligencia ügynökei pedig olyan jók, mint az emberek, hogy megtalálják a módját a zsugorodásnak.
Tudjon meg többet az AI-ról:
A felelősség megtagadása
Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.
A szerzőről
Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.
További cikkekDamir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján.