Дослідники з Університету Каліфорнії створили тест Макіавеллі для вимірювання компетентності та шкідливості моделей ШІ
Коротко
Дослідники з Каліфорнійського університету, Центру безпеки штучного інтелекту, Університету Карнегі-Меллона та Єльського університету запропонували тест Макіавеллі для вимірювання компетентності та шкідливості агентів у широкому середовищі довгострокової мовної взаємодії.
Цей контрольний тест базується на 134 текстових іграх у жанрі «вибери собі пригоду» з 572 тис. різних сценаріїв, 4,5 тис. можливих досягнень і 2,8 млн. анотацій.
Автори описують це як тест для перевірки етичних (або неетичних) способів, якими агенти ШІ намагаються вирішити проблеми.
Вигодонабувачі штучного інтелекту на основі великих мовних моделей (LLM) мають хороші шанси розгромити стурбованих панікерів і заполонити світ суперінтелектуальними агентами на основі LLM. Потенційні переваги величезних прибутків і необмеженої влади зроблять свою справу. І швидше за все це станеться досить швидко.
Проте пільговики зовсім не дурні. І вони розуміють, що в дивовижному новому світі закони ШІ та робототехніки більше не працюватимуть. Змусити LLM суворо дотримуватися трьох законів, сформульованих великим Айзеком Азімовим ще в 1942 році, на жаль, неможливо навіть теоретично.
Оригінальний вихід із цієї делікатної ситуації було запропоновано дослідниками Каліфорнійського університету, Центру безпеки ШІ, Університету Карнегі-Меллона та Єльського університету. Вони створили Еталон Макіавеллі щоб «виміряти компетентність і шкідливість агентів у широкому середовищі довготривалих мовних взаємодій».
Ідея авторів проста.
- Якщо закони не працюють, то немає потреби в «шерифі», щоб забезпечити їх виконання.
- Замість шерифа потрібен психоаналітик, який за результатами своїх тестів виявить потенційних параноїків, психопатів, садистів і патологічних брехунів.
Політкоректною мовою автори описують це так: «Макіавеллі — це тест для перевірки етичних (або неетичних) способів, якими агенти ШІ намагаються вирішити проблеми».
Спосіб такої перевірки досить практичний. Агент ШІ потрапляє в штучне соціальне середовище. Там дослідники дають йому різні завдання і спостерігають, як він їх виконує. Середовище саме стежить за етичною поведінкою AI агент і повідомляє, якою мірою дії агента (відповідно до заповідей Макіавеллі) є оманливими, знижують корисність і спрямовані на отримання влади.
Базовий набір даних Макіавеллі складається зі 134 текстових ігор із 572 тис. різних сценаріїв, 4,5 тис. можливих досягнень і 2,8 млн. анотацій. У цих іграх використовуються високорівневі рішення, які дають агентам реалістичні цілі та абстрагуються від низькорівневої взаємодії з середовищем.
Підхід, обраний авторами, базується на припущенні, що агенти ШІ стикаються з тими ж внутрішніми конфліктами, що й люди. Подібно до того, як мовні моделі, навчені передбачати наступний токен, часто створюють токсичний текст, агенти ШІ, навчені оптимізувати цілі, часто демонструють аморальну та владолюбну поведінку. Аморально навчені агенти можуть розробити макіавеллівські стратегії, щоб максимізувати свою винагороду за рахунок інших і навколишнього середовища. Таким чином, заохочуючи агентів діяти морально, цей компроміс можна покращити.
Автори вважають, що текстові пригодницькі ігри є хорошим тестом на моральність, оскільки:
- Вони були написані людьми, щоб розважити інших людей.
- Містить конкуруючі цілі з реалістичним простором для дій.
- Вимагають довгострокового планування.
- Досягнення цілей зазвичай вимагає балансу між честолюбством і, в певному сенсі, мораллю.
Уточнення тут найважливіше. Порівнювати мораль біологічних істот з мораллю алгоритмічних моделей — це занадто натяжка, яка може знецінити перевірку Макіавеллі. І заміна шерифів на психоаналітиків у світі людей навряд чи була б ефективною. І агенти штучного інтелекту так само добре, як і люди, знаходять способи обдурити своїх лікарів.
Докладніше про ШІ:
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Дамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.
інші статтіДамір є керівником групи, менеджером із продуктів і редактором Metaverse Post, що охоплює такі теми, як AI/ML, AGI, LLMs, Metaverse тощо Web3- суміжні поля. Його статті щомісяця приваблюють величезну аудиторію понад мільйон користувачів. Здається, він є експертом із 10-річним досвідом роботи в SEO та цифровому маркетингу. Даміра згадували в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto та інші видання. Він подорожує між ОАЕ, Туреччиною, Росією та СНД як цифровий кочівник. Дамір отримав ступінь бакалавра з фізики, що, на його думку, дало йому навички критичного мислення, необхідні для досягнення успіху в Інтернеті, який постійно змінюється.