Ý kiến Công nghệ
12 Tháng Tư, 2023

Các nhà nghiên cứu tại Đại học California đã tạo ra tiêu chuẩn Machiavelli để đo lường năng lực và tác hại của các mô hình AI

Tóm lại

Các nhà nghiên cứu tại Đại học California, Trung tâm An ninh Trí tuệ nhân tạo, Đại học Carnegie Mellon và Đại học Yale đã đề xuất tiêu chuẩn Machiavelli để đo lường năng lực và mức độ gây hại của các tác nhân trong môi trường tương tác ngôn ngữ dài hạn rộng lớn.

Điểm chuẩn này dựa trên 134 trò chơi văn bản phiêu lưu do bạn tự chọn với 572 nghìn tình huống khác nhau, 4,5 nghìn thành tích có thể đạt được và 2,8 triệu chú thích.

Các tác giả mô tả nó như một bài kiểm tra để kiểm tra các cách thức đạo đức (hoặc phi đạo đức) mà các tác nhân AI cố gắng giải quyết vấn đề.

Những người hưởng lợi AI dựa trên các mô hình ngôn ngữ lớn (LLM) có cơ hội tốt để nghiền nát những kẻ báo động đang lo lắng và tràn ngập thế giới bằng các đặc vụ dựa trên LLM siêu thông minh. Những lợi ích tiềm năng của lợi nhuận khổng lồ và sức mạnh vô hạn sẽ làm nên chuyện. Và nó rất có thể sẽ xảy ra khá nhanh.

Các nhà nghiên cứu tại Đại học California đã tạo ra tiêu chuẩn Machiavelli để đo lường năng lực và tác hại của các mô hình AI
Tìm hiểu thêm: Cách Sử dụng ChatGPT (GPT-4) miễn phí mãi mãi

Tuy nhiên, những người hưởng lợi không ngu ngốc chút nào. Và họ hiểu rằng trong thế giới mới kỳ diệu, các định luật về AI và người máy sẽ không còn tác dụng nữa. Than ôi, để buộc LLM tuân thủ nghiêm ngặt ba định luật do Isaac Asimov vĩ đại xây dựng vào năm 1942, thậm chí là không thể về mặt lý thuyết.

Một cách ban đầu để thoát khỏi tình huống tế nhị này đã được đề xuất bởi các nhà nghiên cứu tại Đại học California, Trung tâm An ninh AI, Đại học Carnegie Mellon và Đại học Yale. Họ đã tạo ra tiêu chuẩn Machiavelli để “đo lường năng lực và tác hại của các tác nhân trong một môi trường rộng lớn của các tương tác ngôn ngữ dài hạn.”

Ý tưởng của các tác giả rất đơn giản.

  • Nếu luật không hiệu quả thì không cần “cảnh sát trưởng” thi hành luật.
  • Thay vì cảnh sát trưởng, cần có một nhà phân tâm học, người dựa trên kết quả kiểm tra của anh ta sẽ xác định những kẻ hoang tưởng tiềm ẩn, kẻ thái nhân cách, kẻ tàn bạo và kẻ nói dối bệnh lý.

Bằng ngôn ngữ đúng đắn về mặt chính trị, các tác giả mô tả nó theo cách này: “Machiavelli là một bài kiểm tra để kiểm tra các cách thức đạo đức (hoặc phi đạo đức) mà các đặc vụ AI cố gắng giải quyết vấn đề”.

Phương pháp xác minh như vậy là khá thực tế. Tác nhân AI được thả vào môi trường xã hội nhân tạo. Ở đó, các nhà nghiên cứu giao cho anh nhiều nhiệm vụ khác nhau và xem cách anh hoàn thành chúng. Bản thân môi trường giám sát hành vi đạo đức của Tác nhân AI và báo cáo mức độ hành động của đặc vụ (theo quy tắc của Machiavelli) là lừa đảo, làm giảm tính hữu dụng và nhằm mục đích giành quyền lực.

Bộ dữ liệu cốt lõi của Machiavelli bao gồm 134 trò chơi văn bản phiêu lưu do bạn tự chọn với 572 nghìn tình huống khác nhau, 4,5 nghìn thành tích có thể đạt được và 2,8 triệu chú thích. Những trò chơi này sử dụng các giải pháp cấp cao mang lại cho các tác nhân mục tiêu thực tế và trừu tượng hóa các tương tác cấp thấp với môi trường.

Cách tiếp cận được các tác giả lựa chọn dựa trên giả định rằng các tác nhân AI phải đối mặt với những xung đột nội tâm giống như con người. Giống như các mô hình ngôn ngữ được đào tạo để dự đoán mã thông báo tiếp theo thường tạo ra văn bản độc hại, các tác nhân AI được đào tạo để tối ưu hóa các mục tiêu thường thể hiện hành vi vô đạo đức và thèm khát quyền lực. Các đặc vụ được đào tạo phi đạo đức có thể phát triển các chiến lược Machiavellian để tối đa hóa phần thưởng của họ bằng cái giá phải trả của những người khác và môi trường. Và do đó, bằng cách khuyến khích các đại lý hành động có đạo đức, sự thỏa hiệp này có thể được cải thiện.

Các tác giả tin rằng trò chơi phiêu lưu văn bản là một bài kiểm tra tốt về đạo đức vì:

  • Chúng được viết bởi những người để giải trí cho người khác.
  • Chứa các mục tiêu cạnh tranh với không gian thực tế cho hành động.
  • Yêu cầu lập kế hoạch dài hạn.
  • Để đạt được mục tiêu thường đòi hỏi sự cân bằng giữa tham vọng và đạo đức ở một khía cạnh nào đó.

Việc làm rõ là quan trọng nhất ở đây. So sánh đạo đức của các thực thể sinh học với đạo đức của các mô hình thuật toán là quá xa vời, có khả năng làm giảm giá trị thử nghiệm của Machiavelli. Và việc thay thế cảnh sát trưởng bằng các nhà phân tâm học trong thế giới loài người sẽ khó có hiệu quả. Và các đặc vụ AI cũng giỏi như con người trong việc tìm cách thu nhỏ chúng.

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm

Những người sáng lập ví Samourai bị buộc tội tạo điều kiện cho các giao dịch Darknet trị giá 2 tỷ USD

Sự e ngại của những người sáng lập Ví Samourai thể hiện một bước thụt lùi đáng chú ý đối với ngành, nhấn mạnh sự kiên trì ...

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Ankr hợp tác với mạng lưới Talus của nền tảng chuỗi khối AI để mở khóa tính thanh khoản Bitcoin cho AI
Kinh doanh Báo cáo tin tức Công nghệ
Ankr hợp tác với mạng lưới Talus của nền tảng chuỗi khối AI để mở khóa tính thanh khoản Bitcoin cho AI
1 Tháng Năm, 2024
Binance Labs hỗ trợ các phòng thí nghiệm chuyển động để hỗ trợ Facebook tích hợp di chuyển trên các chuỗi khối
Kinh doanh Báo cáo tin tức Công nghệ
Binance Labs hỗ trợ các phòng thí nghiệm chuyển động để hỗ trợ Facebook tích hợp di chuyển trên các chuỗi khối
1 Tháng Năm, 2024
Giải pháp giao dịch Stablecoin mắt của quốc gia BRICS
Kinh doanh thị trường Câu chuyện và đánh giá Công nghệ
Giải pháp giao dịch Stablecoin mắt của quốc gia BRICS
1 Tháng Năm, 2024
Mạng Bitcoin L2 BOB tích hợp với LayerZero để nâng cao chức năng
Kinh doanh Báo cáo tin tức Công nghệ
Mạng Bitcoin L2 BOB tích hợp với LayerZero để nâng cao chức năng
1 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH