OpenAI: Mô hình phần thưởng được giám sát theo quy trình mới cải thiện khả năng suy luận của AI
Tóm lại
OpenAIMô hình phần thưởng được giám sát theo quy trình (PRM) của nó nhằm mục đích đánh giá các bước trung gian và lý luận của các mô hình AI, từ đó cải thiện hiệu suất và số liệu.
OpenAI một lần nữa đã thu hút sự chú ý của cộng đồng AI với công trình đột phá của họ về mô hình phần thưởng được giám sát theo quy trình (PRM). Cách tiếp cận sáng tạo này nhằm mục đích đánh giá các bước trung gian và lập luận của các mô hình AI, dẫn đến hiệu suất và số liệu được cải thiện.
Trong học tăng cường truyền thống từ phản hồi của con người (RLHF), phản hồi về mô hình thường được đưa ra dựa trên kết quả tổng thể do mô hình tạo ra. Tuy nhiên, OpenAINghiên cứu mới của ông khám phá ý tưởng đánh giá các bước riêng lẻ và quy trình suy luận được thực hiện bởi mô hình. Bằng cách đó, họ có thể đưa ra những đánh giá và phản hồi chi tiết hơn.
Để giải quyết vấn đề này, OpenAI các vấn đề toán học được lựa chọn đòi hỏi nhiều hành động. riêng biệt kiểu mẫu đã được đào tạo để đánh giá hiệu quả các bước trung gian, đóng vai trò là nhà phê bình để xác định bất kỳ phán đoán sai lầm nào do mô hình chính đưa ra. Quá trình này không chỉ nâng cao hiệu suất tổng thể mà còn cải thiện các số liệu được sử dụng để đánh giá khả năng của mô hình.
OpenAI đã có những bước tiến đáng kể trong lĩnh vực này, với việc phát hành một bộ dữ liệu được quản lý tỉ mỉ bao gồm 800,000 đánh giá được đánh dấu. Mỗi phán đoán đại diện cho một giai đoạn riêng biệt trong việc giải các bài toán và được tạo thủ công. Điều này làm nổi bật mức độ cống hiến và nguồn lực OpenAI đầu tư phát triển bộ dữ liệu chất lượng cao, đặt ra câu hỏi về khối lượng dữ liệu được thu thập cho các lĩnh vực khác, chẳng hạn như lập trình hoặc câu hỏi mở.
Việc đào tạo GPT-4, OpenAIlần lặp lại mới nhất của GPT loạt, đã được tiến hành tốt. Mặc dù thành phần RLHF không được kết hợp trong các thử nghiệm hiện tại nhưng mô hình ngôn ngữ thuần túy được sử dụng. Đáng chú ý, OpenAI đề cập rằng có nhiều phiên bản của GPT-4, ngay cả phiên bản nhỏ nhất cũng cần ít tài nguyên hơn đáng kể cho đào tạo—ít hơn khoảng 200 lần.
Một ví dụ thú vị được chia sẻ bởi OpenAI giới thiệu cách đánh giá mô hình từng bước quyết định riêng lẻ. Trong ảnh chụp màn hình có trong bài đăng, các lỗi trong giải pháp được gắn cờ và cho điểm chính xác thấp nhất, được đánh dấu màu đỏ. Phần trình diễn này nêu bật khả năng suy luận của mô hình và cung cấp những hiểu biết sâu sắc có giá trị về quá trình ra quyết định của nó. OpenAI cũng đã cung cấp hướng dẫn về đánh dấu, tạo cơ hội cho những người cung cấp nguồn lực cộng đồng đóng góp và hưởng lợi từ công việc của họ.
As OpenAI tiếp tục vượt qua các ranh giới của nghiên cứu AI, việc họ tập trung vào lý luận mô hình và mô hình phần thưởng được giám sát theo quy trình mang đến những khả năng mới để nâng cao khả năng AI. Bước đột phá mới nhất này thể hiện cam kết của họ trong việc cải thiện hiệu suất mô hình và mở ra cánh cửa cho những tiến bộ hơn nữa trong lĩnh vực này.
- Gần đây, Apple được cho là hạn chế nhân viên sử dụng ChatGPT và các chatbot hỗ trợ AI khác do lo ngại về quyền riêng tư. Tạp chí Phố Wall báo cáo rằng công nhân cũng bị hạn chế sử dụng công cụ AI Copilot của GitHub, công cụ này cho phép người dùng tự động viết mã phần mềm. ChatGPT là một chatbot hỗ trợ AI được phát triển bởi OpenAI, đã bị chỉ trích vì vi phạm quyền riêng tư.
Đọc thêm về AI:
Từ chối trách nhiệm
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.
Xem thêm bài viếtDamir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.