Báo cáo tin tức Công nghệ
01 Tháng Sáu, 2023

OpenAI: Mô hình phần thưởng được giám sát theo quy trình mới cải thiện khả năng suy luận của AI

Tóm lại

OpenAIMô hình phần thưởng được giám sát theo quy trình (PRM) của nó nhằm mục đích đánh giá các bước trung gian và lý luận của các mô hình AI, từ đó cải thiện hiệu suất và số liệu.

OpenAI một lần nữa đã thu hút sự chú ý của cộng đồng AI với công trình đột phá của họ về mô hình phần thưởng được giám sát theo quy trình (PRM). Cách tiếp cận sáng tạo này nhằm mục đích đánh giá các bước trung gian và lập luận của các mô hình AI, dẫn đến hiệu suất và số liệu được cải thiện.

OpenAI: Mô hình phần thưởng được giám sát theo quy trình mới cải thiện khả năng suy luận của AI
Tín dụng: Metaverse Post (mpost.io)
Đề xuất: ChatGPT Có thể thay đổi Phố Wall bằng cách làm cho giao dịch dễ dàng hơn

Trong học tăng cường truyền thống từ phản hồi của con người (RLHF), phản hồi về mô hình thường được đưa ra dựa trên kết quả tổng thể do mô hình tạo ra. Tuy nhiên, OpenAINghiên cứu mới của ông khám phá ý tưởng đánh giá các bước riêng lẻ và quy trình suy luận được thực hiện bởi mô hình. Bằng cách đó, họ có thể đưa ra những đánh giá và phản hồi chi tiết hơn.

Để giải quyết vấn đề này, OpenAI các vấn đề toán học được lựa chọn đòi hỏi nhiều hành động. riêng biệt kiểu mẫu đã được đào tạo để đánh giá hiệu quả các bước trung gian, đóng vai trò là nhà phê bình để xác định bất kỳ phán đoán sai lầm nào do mô hình chính đưa ra. Quá trình này không chỉ nâng cao hiệu suất tổng thể mà còn cải thiện các số liệu được sử dụng để đánh giá khả năng của mô hình.

OpenAI đã có những bước tiến đáng kể trong lĩnh vực này, với việc phát hành một bộ dữ liệu được quản lý tỉ mỉ bao gồm 800,000 đánh giá được đánh dấu. Mỗi phán đoán đại diện cho một giai đoạn riêng biệt trong việc giải các bài toán và được tạo thủ công. Điều này làm nổi bật mức độ cống hiến và nguồn lực OpenAI đầu tư phát triển bộ dữ liệu chất lượng cao, đặt ra câu hỏi về khối lượng dữ liệu được thu thập cho các lĩnh vực khác, chẳng hạn như lập trình hoặc câu hỏi mở.

Việc đào tạo GPT-4, OpenAIlần lặp lại mới nhất của GPT loạt, đã được tiến hành tốt. Mặc dù thành phần RLHF không được kết hợp trong các thử nghiệm hiện tại nhưng mô hình ngôn ngữ thuần túy được sử dụng. Đáng chú ý, OpenAI đề cập rằng có nhiều phiên bản của GPT-4, ngay cả phiên bản nhỏ nhất cũng cần ít tài nguyên hơn đáng kể cho đào tạo—ít hơn khoảng 200 lần.

Một ví dụ thú vị được chia sẻ bởi OpenAI trình bày cách mô hình đánh giá từng bước quyết định riêng lẻ. Trong ảnh chụp màn hình có trong bài đăng, các lỗi trong giải pháp được gắn cờ và cho điểm chính xác thấp nhất, được đánh dấu màu đỏ.
Tín dụng: OpenAI

Một ví dụ thú vị được chia sẻ bởi OpenAI giới thiệu cách đánh giá mô hình từng bước quyết định riêng lẻ. Trong ảnh chụp màn hình có trong bài đăng, các lỗi trong giải pháp được gắn cờ và cho điểm chính xác thấp nhất, được đánh dấu màu đỏ. Phần trình diễn này nêu bật khả năng suy luận của mô hình và cung cấp những hiểu biết sâu sắc có giá trị về quá trình ra quyết định của nó. OpenAI cũng đã cung cấp hướng dẫn về đánh dấu, tạo cơ hội cho những người cung cấp nguồn lực cộng đồng đóng góp và hưởng lợi từ công việc của họ.

As OpenAI tiếp tục vượt qua các ranh giới của nghiên cứu AI, việc họ tập trung vào lý luận mô hình và mô hình phần thưởng được giám sát theo quy trình mang đến những khả năng mới để nâng cao khả năng AI. Bước đột phá mới nhất này thể hiện cam kết của họ trong việc cải thiện hiệu suất mô hình và mở ra cánh cửa cho những tiến bộ hơn nữa trong lĩnh vực này.

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories
Tham gia bản tin của chúng tôi.
Tin mới nhất

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Sự chuyển đổi sang tiền điện tử của Donald Trump: Từ đối thủ thành người ủng hộ và ý nghĩa của nó đối với thị trường tiền điện tử Hoa Kỳ
Kinh doanh thị trường Câu chuyện và đánh giá Công nghệ
Sự chuyển đổi sang tiền điện tử của Donald Trump: Từ đối thủ thành người ủng hộ và ý nghĩa của nó đối với thị trường tiền điện tử Hoa Kỳ
10 Tháng Năm, 2024
Layer3 sẽ ra mắt mã thông báo L3 vào mùa hè này, phân bổ 51% tổng nguồn cung cho cộng đồng
thị trường Báo cáo tin tức Công nghệ
Layer3 sẽ ra mắt mã thông báo L3 vào mùa hè này, phân bổ 51% tổng nguồn cung cho cộng đồng
10 Tháng Năm, 2024
Cảnh báo cuối cùng của Edward Snowden dành cho các nhà phát triển Bitcoin: “Đặt quyền riêng tư thành ưu tiên ở cấp độ giao thức hoặc có nguy cơ mất nó
thị trường Bảo mật Wiki Phần mềm Câu chuyện và đánh giá Công nghệ
Cảnh báo cuối cùng của Edward Snowden dành cho các nhà phát triển Bitcoin: “Đặt quyền riêng tư thành ưu tiên ở cấp độ giao thức hoặc có nguy cơ mất nó
10 Tháng Năm, 2024
Mạng lưới Ethereum lớp 2 được hỗ trợ bởi sự lạc quan sẽ ra mắt Mainnet vào ngày 15 tháng XNUMX
Báo cáo tin tức Công nghệ
Mạng lưới Ethereum lớp 2 được hỗ trợ bởi sự lạc quan sẽ ra mắt Mainnet vào ngày 15 tháng XNUMX
10 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH