Báo cáo tin tức Công nghệ
15 Tháng Năm, 2023

Các chương trình LLM: Con đường mới để tinh chỉnh các mô hình thần kinh trong các tình huống phức tạp

Tóm lại

Các tác giả đề xuất một con đường thay thế gọi là Chương trình LLM, có thể được coi là sự phát triển của học tập trong ngữ cảnh.

Chìa khóa để giải quyết vấn đề thông qua Chương trình LLM là khả năng phân tách giải pháp cho vấn đề thành một chuỗi các bước đơn giản hơn.

Có hai lĩnh vực chính của tùy chỉnh LLM: tinh chỉnh (hoặc đào tạo bổ sung) mô hình cơ sở được đào tạo trước và học theo ngữ cảnh. Tinh chỉnh yêu cầu tài nguyên điện toán, thu thập dữ liệu và cơ sở hạ tầng quan trọng để thực hiện điều này và sau đó lưu trữ các mô hình tinh chỉnh. Trong khi đó, học theo ngữ cảnh liên quan đến việc tổng hợp lời nhắc phù hợp với các ví dụ giải quyết vấn đề, chẳng hạn như Chuỗi suy nghĩ (CoT). Tuy nhiên, có một số khó khăn, chẳng hạn như kích thước hạn chế của văn bản có thể được gửi tới mô hình và thực tế là trong một dấu nhắc nhiều lượt phức tạp, các bước có thể can thiệp lẫn nhau và mô hình có thể bị phân tâm bởi một thứ gì đó. điều đó không nên bị phân tâm vào lúc này. Các tác giả đề xuất một con đường thay thế gọi là chương trình LLM, có thể được coi là sự phát triển của học tập trong ngữ cảnh.

Các chương trình LLM: Con đường mới để tinh chỉnh các mô hình thần kinh trong các tình huống phức tạp
Đề nghị: Hướng dẫn cơ bản về kỹ thuật nhanh chóng 2023

LLM được tích hợp vào chương trình (theo cách thông thường ngôn ngữ lập trình, ví dụ, trong Python). Mã bên ngoài này chịu trách nhiệm lưu trữ trạng thái và duy trì mô hình từng bước. Nó có một số ưu điểm chính: Ngôn ngữ lập trình được điều chỉnh cho phù hợp với điều này, kích thước của ngữ cảnh khả dụng tăng lên và các bước không can thiệp lẫn nhau. Chìa khóa để giải quyết vấn đề thông qua Chương trình LLM là khả năng phân tách giải pháp cho vấn đề thành một chuỗi các bước đơn giản hơn. Cách tiếp cận này khác với các công trình trước đó, trong đó mô hình sử dụng các công cụ bên ngoài như máy tính hoặc trình thông dịch mã để duy trì nhà nước. Cách tiếp cận này là tốt bởi vì có thể mô tả một nhiệm vụ phức tạp và lan rộng theo cách này, giúp kiểm tra, gỡ lỗi và đánh giá chất lượng dễ dàng hơn.

Ngoài ra, không có sự can thiệp giữa các bước, giúp làm việc với LLM dễ dàng hơn. Hệ thống câu hỏi-câu trả lời cũng không phải là mới; chúng đã tồn tại từ rất lâu trước LLM. Nhiệm vụ trả lời câu hỏi hiện nay được giải quyết như thế nào?

Các trang web được cập nhật thường xuyên, vì vậy một người mẫu đông lạnh không phải là một sự lựa chọn; nó sẽ nhanh chóng trở nên lỗi thời và sẽ không thể trả lời các câu hỏi về sản phẩm mới. Liên tục đào tạo lại mô hình cho mỗi lần cập nhật không phải là một lựa chọn thực tế: Nó tốn kém và tốn thời gian. Thay vào đó, các trang của một trang web thường được lập chỉ mục, đưa vào một số loại cơ sở dữ liệu và thường được định dạng theo vectơ. Theo yêu cầu của người dùng, các tài liệu liên quan được kéo lên và gửi dưới dạng ngữ cảnh tới LLM.

Trong một mô hình như vậy, vấn đề được giải quyết một cách tự nhiên thông qua Chương trình LLM. Như một phần thưởng, nó trở nên có thể để triển khai logic nhiều lượt phức tạp hơn sẽ không hoàn toàn phù hợp với ngữ cảnh.

thử nghiệm trên Bộ dữ liệu StrategyQA chứa các vấn đề phân loại nhị phân, giải pháp liên quan đến lý luận đa chiều. Như “Liệu ánh sáng mặt trời có xuyên được đến nơi sâu nhất của Biển Đen?”. Để trả lời, bạn cần tìm độ sâu tối đa (2 km) và độ sâu của ánh sáng xuyên qua nước (1 km), sau đó đưa ra kết luận. Chúng ta hãy xem một câu hỏi ví dụ khác: “Aristotle có sử dụng máy tính xách tay không?” Câu hỏi này không đơn giản và không tuân theo trình tự các bước lập luận một cách rõ ràng như “Aristotle có còn sống khi máy tính xách tay được phát minh ra không?” làm. Bộ dữ liệu tập trung vào các câu hỏi trong đó trình tự như vậy là ẩn. Chỉ có 2,780 câu hỏi trong bộ dữ liệu, trong đó chỉ có 918 đoạn văn có bằng chứng củng cố tất cả các bước lập luận. Trong công việc hiện tại, nó giới hạn trong tập hợp con này; nếu không, chúng tôi sẽ phải dựa vào LLM để học một số sự kiện trong quá trình đào tạo trước.

Theo mặc định, OPT-175B LLM không thực hiện tốt các hướng dẫn; nó không cần phải tinh chỉnh hướng dẫn cũng như dữ liệu đàm thoại. Để giải quyết vấn đề trả lời câu hỏi được hỗ trợ bằng chứng, được chia thành giai đoạn lọc dữ liệu và giai đoạn tìm kiếm cây.

Ở giai đoạn lọc, có một câu hỏi, các nhà phát triển sẽ xem qua tất cả các đoạn và chọn những đoạn phù hợp nhất. Ví dụ: với lời nhắc ngắn gọn, hãy yêu cầu LLM trả lời (có/không) liệu một đoạn đã cho có liên quan đến câu hỏi được hỏi hay không. Đã thử nghiệm trên 300 tập hợp con của StrategyQA, trong đó mỗi câu hỏi được khớp với một đoạn văn, có liên quan hay không, 50/50. OPT-175B và text-davinci-002 không có chất lượng cao hơn nhiều so với đường cơ sở ngẫu nhiên: lên tới 56%. cao cấp hơn 11B Tk-Hướng dẫn cũng không khá hơn là 61.6%.

Do chất lượng kém của phương pháp này, một giải pháp thay thế đã được kết hợp với nhau để xem xét khả năng nhật ký âm tính trung bình (NLL) của câu hỏi kết hợp với đoạn văn bản trước đó và sau đó xếp hạng kết quả. Được đánh giá trên tập dữ liệu trong đó đối với mỗi câu hỏi, có 100 đoạn văn và chỉ một đoạn văn có liên quan (vì vậy việc đoán ngẫu nhiên cho 1%). Chúng tôi có độ chính xác top 1 là 79% và top 5 là 93%. Đối với tính toán này, bạn thường cần quyền truy cập vào chính mô hình, điều này không phải lúc nào cũng được thực hiện trong API.

Tiếp đến là khâu xây dựng chuỗi đầu ra. Điều này được thực hiện thông qua tìm kiếm thông qua một cây trong đó câu hỏi là gốc và ở mỗi cấp độ, có nhiều đoạn văn có bằng chứng khả dĩ được sử dụng làm ngữ cảnh để tạo ra bước tiếp theo. Mỗi đường đi qua cây là một chuỗi đầu ra tiềm năng. Sẽ không thực tế khi đưa ra kết luận về tất cả các chuỗi có thể, vì vậy tất cả các chuỗi có sẵn đều được xếp hạng và chuỗi xếp hạng cao nhất được mở rộng. Đây là một biến thể của tìm kiếm theo chùm. Quá trình dừng lại khi một phản hồi được thực hiện hoặc đã vượt qua số bước tối đa cho phép.

Chi tiết quan trọng nhất là hai chiến lược xếp hạng được thử nghiệm cho bước tìm kiếm trên cây. Chiến lược đầu tiên dựa trên NLL trung bình của toàn bộ chuỗi, trong khi chiến lược thứ hai xem xét sự khác biệt trung bình về NLL có và không có đoạn văn (P), có và không có câu hỏi (Q). Trên 918 câu hỏi có sẵn từ StrategyQA, phương pháp này cải thiện đáng kể chất lượng câu trả lời so với đường cơ sở với CoT (60%); cả hai tùy chọn tìm kiếm đều cho khoảng 66% (chiến lược có đồng bằng cao hơn một chút). Nếu các sự thật vàng được gửi, chất lượng sẽ đạt khoảng 81%, đây là giới hạn trên cho OPT. Darklang dường như sẽ đi đâu đó nhưng theo một cách hơi khác.

Bài viết dựa trên Telegram gửi.

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
Kinh doanh Báo cáo tin tức Công nghệ
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
3 Tháng Năm, 2024
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
thị trường Báo cáo tin tức Công nghệ
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
3 Tháng Năm, 2024
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
thị trường Báo cáo tin tức Công nghệ
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
3 Tháng Năm, 2024
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
Kinh doanh Báo cáo tin tức Công nghệ
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
3 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH