Các nhà nghiên cứu AI đã dạy các mô hình ngôn ngữ lớn nói dối ít hơn
Một nỗ lực hợp tác có sự tham gia của hơn 20 nhà nghiên cứu từ nhiều góc độ khác nhau của lĩnh vực này đã tạo ra một lĩnh vực đang phát triển – kỹ thuật đại diện (Đại diện). Mặc dù đây không phải là nghiên cứu đầu tiên thuộc loại này nhưng các tác giả đang trình bày cả những hiểu biết mang tính mô tả và thiết lập các tiêu chuẩn quan trọng.
Vì vậy, chính xác thì kỹ thuật biểu diễn là gì? Nó xoay quanh quan điểm cho rằng mạng lưới thần kinh sở hữu “các trạng thái ẩn”, mặc dù có tên như vậy nhưng không bị che giấu bí mật. Các trạng thái này có thể truy cập, sửa đổi và quan sát được (miễn là trạng thái đó có quyền truy cập vào trọng số của mô hình). Không giống như các tham số, đây là những “phản ứng” của mạng đối với các đầu vào cụ thể, đặc biệt trong trường hợp LLM, đầu vào văn bản. Những biểu diễn ẩn này giống như cửa sổ nhìn vào hoạt động nhận thức của mô hình, một đặc điểm khác biệt rõ rệt với bộ não con người.
Vẽ sự tương đồng với khoa học nhận thức, các tác giả nêu bật tiềm năng của những khám phá tương tự. Trong lĩnh vực kích hoạt thần kinh, một lĩnh vực tương tự như các tế bào thần kinh não, ẩn chứa lời hứa về ý nghĩa. Giống như một số tế bào thần kinh nhất định trong não người được liên kết với các khái niệm như Canada hoặc sự trung thực, những hoạt động này có thể mang lại những hiểu biết sâu sắc.
Ý tưởng trọng tâm ở đây là giải mã cách chúng ta có thể tác động đến các kích hoạt thần kinh này để điều khiển mô hình theo các hướng mong muốn. Ví dụ, sẽ hợp lý hơn khi xác định một vectơ đại diện cho “sự trung thực” và sau đó, về mặt lý thuyết, bằng cách thúc đẩy mô hình theo hướng này, sẽ giảm khả năng nó tạo ra các kết quả đầu ra lừa đảo. Một thí nghiệm trước đó, “Can thiệp vào thời gian suy luận: Gợi ý câu trả lời trung thực từ mô hình ngôn ngữ,” đã chứng minh tính thực tế của khái niệm này.
Trong công việc hiện tại của họ, các nhà nghiên cứu đi sâu vào một số lĩnh vực, bao gồm đạo đức, cảm xúc, sự vô hại và khả năng ghi nhớ. Họ đề xuất một giải pháp dưới dạng LoRRA (Thích ứng biểu diễn cấp thấp), một kỹ thuật liên quan đến việc đào tạo trên một tập dữ liệu được dán nhãn nhỏ gồm khoảng 100 ví dụ. Mỗi ví dụ đều được chú thích, biểu thị các thuộc tính như sai sự thật (mặc dù vẫn tồn tại một cách tiếp cận khác sử dụng dấu nhắc).
Kết quả thật thuyết phục. LLAMA-2-70B vượt qua GPT-4 bằng một mức chênh lệch đáng kể so với điểm chuẩn TruthfulQA, đạt được độ chính xác cao hơn gần 59% (69% so với khoảng XNUMX%). Ngoài ra, các nhà nghiên cứu đã kết hợp nhiều ví dụ cho thấy phản ứng của mô hình thay đổi theo nhiều hướng khác nhau, làm sáng tỏ tính linh hoạt và khả năng thích ứng của nó.
Cách tiếp cận tiên phong này thể hiện một con đường thay thế hướng tới sự liên kết mô hình, đồng thời đưa ra một quan điểm mới về giải thích và kiểm soát mô hình. Đó là một biên giới đầy hứa hẹn và có thể thấy rõ sự dự đoán về sự phát triển liên tục của nó.
Để khám phá sâu hơn với các ví dụ thực tế, bạn có thể truy cập trang web chuyên dụng của họ: AI-Transparency.org.
Từ chối trách nhiệm
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.
Xem thêm bài viếtDamir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.