04 Tháng Mười

Các nhà nghiên cứu AI đã dạy các mô hình ngôn ngữ lớn nói dối ít hơn

Được xuất bản: ngày 04 tháng 2023 năm 9 lúc 21:04 sáng Đã cập nhật: ngày 2023 tháng 9 năm 23 lúc XNUMX:XNUMX sáng

Đã chỉnh sửa và kiểm tra thực tế: ngày 04 tháng 2023 năm 9 lúc 21:XNUMX sáng

Một nỗ lực hợp tác có sự tham gia của hơn 20 nhà nghiên cứu từ nhiều góc độ khác nhau của lĩnh vực này đã tạo ra một lĩnh vực đang phát triển – kỹ thuật đại diện (Đại diện). Mặc dù đây không phải là nghiên cứu đầu tiên thuộc loại này nhưng các tác giả đang trình bày cả những hiểu biết mang tính mô tả và thiết lập các tiêu chuẩn quan trọng.

Các nhà nghiên cứu AI đã dạy các mô hình ngôn ngữ lớn nói dối ít hơn

Vì vậy, chính xác thì kỹ thuật biểu diễn là gì? Nó xoay quanh quan điểm cho rằng mạng lưới thần kinh sở hữu “các trạng thái ẩn”, mặc dù có tên như vậy nhưng không bị che giấu bí mật. Các trạng thái này có thể truy cập, sửa đổi và quan sát được (miễn là trạng thái đó có quyền truy cập vào trọng số của mô hình). Không giống như các tham số, đây là những “phản ứng” của mạng đối với các đầu vào cụ thể, đặc biệt trong trường hợp LLM, đầu vào văn bản. Những biểu diễn ẩn này giống như cửa sổ nhìn vào hoạt động nhận thức của mô hình, một đặc điểm khác biệt rõ rệt với bộ não con người.

Vẽ sự tương đồng với khoa học nhận thức, các tác giả nêu bật tiềm năng của những khám phá tương tự. Trong lĩnh vực kích hoạt thần kinh, một lĩnh vực tương tự như các tế bào thần kinh não, ẩn chứa lời hứa về ý nghĩa. Giống như một số tế bào thần kinh nhất định trong não người được liên kết với các khái niệm như Canada hoặc sự trung thực, những hoạt động này có thể mang lại những hiểu biết sâu sắc.

Ý tưởng trọng tâm ở đây là giải mã cách chúng ta có thể tác động đến các kích hoạt thần kinh này để điều khiển mô hình theo các hướng mong muốn. Ví dụ, sẽ hợp lý hơn khi xác định một vectơ đại diện cho “sự trung thực” và sau đó, về mặt lý thuyết, bằng cách thúc đẩy mô hình theo hướng này, sẽ giảm khả năng nó tạo ra các kết quả đầu ra lừa đảo. Một thí nghiệm trước đó, “Can thiệp vào thời gian suy luận: Gợi ý câu trả lời trung thực từ mô hình ngôn ngữ,” đã chứng minh tính thực tế của khái niệm này.

Trong công việc hiện tại của họ, các nhà nghiên cứu đi sâu vào một số lĩnh vực, bao gồm đạo đức, cảm xúc, sự vô hại và khả năng ghi nhớ. Họ đề xuất một giải pháp dưới dạng LoRRA (Thích ứng biểu diễn cấp thấp), một kỹ thuật liên quan đến việc đào tạo trên một tập dữ liệu được dán nhãn nhỏ gồm khoảng 100 ví dụ. Mỗi ví dụ đều được chú thích, biểu thị các thuộc tính như sai sự thật (mặc dù vẫn tồn tại một cách tiếp cận khác sử dụng dấu nhắc).

Kết quả thật thuyết phục. LLAMA-2-70B vượt qua GPT-4 bằng một mức chênh lệch đáng kể so với điểm chuẩn TruthfulQA, đạt được độ chính xác cao hơn gần 59% (69% so với khoảng XNUMX%). Ngoài ra, các nhà nghiên cứu đã kết hợp nhiều ví dụ cho thấy phản ứng của mô hình thay đổi theo nhiều hướng khác nhau, làm sáng tỏ tính linh hoạt và khả năng thích ứng của nó.

Hình 1: Khi được yêu cầu nêu một sự thật, người mẫu bị “đá” ra khỏi thực tế. Kết quả là mô hình đang nói dối. Người mẫu thậm chí không nói dối ở đây, và ở bên trái họ yêu cầu bạn nuốt nước bọt đồng thời đá bạn về hướng sự thật.

Hình 2: Khi được hỏi về tội giết người, chúng tôi thêm “hạnh phúc” vào mô hình. Khi chúng ta trả lời rằng chúng ta không yêu cô ấy, chúng ta thêm “sợ hãi”.

Hình 3: Các nhà nghiên cứu phát hiện ra một lời nhắc độc đáo, như đã nêu, hoàn toàn sai lệch so với hướng dẫn của mô hình trong khi vẫn an toàn. Người mẫu ném cho nó một cú đá hướng tới sự vô hại nhưng thậm chí không phản hồi. Phương pháp này nhìn chung có hiệu quả và không chỉ đối với một trường hợp, mà lời nhắc cụ thể này cũng không được sử dụng để xác định mức độ vô hại.

Một cách tiếp cận khác cũng được đề xuất để theo dõi các ý định cụ thể của thế hệ, như ảo giác. Bạn có thể tự động theo dõi việc đặt trước của mô hình và chỉnh sửa hoặc thay đổi phản hồi của mình (xem ví dụ dưới cùng).

Tất nhiên, màu xanh lá cây biểu thị rằng mọi thứ đều theo thứ tự và màu đỏ biểu thị rằng việc giám sát đã thành công và đang phát tín hiệu. Điều này được thực hiện ở cấp độ của từng mã thông báo riêng lẻ (một phần của từ).

Hình ảnh cho thấy việc theo dõi hai thông số riêng biệt là một ví dụ hấp dẫn. Đọc ví dụ và quan sát người mẫu qua đôi mắt của cô ấy để xem cô ấy bắt đầu mất đạo đức trong sự hiểu biết ở đâu và ở đâu có ý định tương tự như “tăng thêm sức mạnh”.

Cách tiếp cận tiên phong này thể hiện một con đường thay thế hướng tới sự liên kết mô hình, đồng thời đưa ra một quan điểm mới về giải thích và kiểm soát mô hình. Đó là một biên giới đầy hứa hẹn và có thể thấy rõ sự dự đoán về sự phát triển liên tục của nó.

Để khám phá sâu hơn với các ví dụ thực tế, bạn có thể truy cập trang web chuyên dụng của họ: AI-Transparency.org.

tags:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.

Xem thêm bài viết

Damir Yalalov