Báo cáo tin tức Công nghệ
27 Tháng Mười

Các nhà nghiên cứu nhân rộng OpenAICông việc của dựa trên Tối ưu hóa chính sách gần nhất (PPO) trong RLHF

Học tăng cường từ phản hồi của con người (RLHF) là một phần không thể thiếu trong các hệ thống đào tạo như ChatGPT, và nó dựa vào các phương pháp chuyên biệt để đạt được thành công. Một trong những phương pháp này, Tối ưu hóa chính sách gần nhất (PPO), ban đầu được hình thành trong các bức tường của OpenAI vào năm 2017. Thoạt nhìn, PPO nổi bật nhờ lời hứa về tính đơn giản trong triển khai và số lượng siêu tham số cần thiết để tinh chỉnh mô hình tương đối thấp. Tuy nhiên, như họ nói, ma quỷ nằm trong các chi tiết.

Các nhà nghiên cứu nhân rộng OpenAICông việc của dựa trên Tối ưu hóa chính sách gần nhất (PPO) trong RLHF

Gần đây, một bài đăng trên blog có tựa đề “37 chi tiết triển khai tối ưu hóa chính sách gần nhất” làm sáng tỏ sự phức tạp của PPO (chuẩn bị cho hội nghị ICLR). Chỉ riêng cái tên đã gợi ý những thách thức phải đối mặt khi thực hiện phương pháp được cho là đơn giản này. Điều đáng kinh ngạc là các tác giả phải mất ba năm để thu thập tất cả thông tin cần thiết và tái tạo lại kết quả.

Mã trong OpenAI kho lưu trữ đã trải qua những thay đổi đáng kể giữa các phiên bản, một số khía cạnh không được giải thích và các điểm đặc biệt xuất hiện dưới dạng lỗi bằng cách nào đó đã tạo ra kết quả. Sự phức tạp của PPO trở nên rõ ràng khi bạn đi sâu vào chi tiết và đối với những người quan tâm đến sự hiểu biết sâu sắc hoặc tự cải thiện bản thân, có sẵn một bản tóm tắt video rất được khuyến khích.

Nhưng câu chuyện không kết thúc ở đó. Các tác giả tương tự đã quyết định xem lại openai/lm-human-preferences kho lưu trữ từ năm 2019, đóng vai trò quan trọng trong việc tinh chỉnh các mô hình ngôn ngữ dựa trên sở thích của con người bằng cách sử dụng PPO. Kho lưu trữ này đánh dấu sự phát triển ban đầu về ChatGPT. Bài đăng trên blog gần đây, “Chi tiết triển khai N của RLHF với PPO,” sao chép chặt chẽ OpenAIhoạt động nhưng sử dụng PyTorch và các thư viện hiện đại thay vì TensorFlow đã lỗi thời. Quá trình chuyển đổi này đi kèm với nhiều thách thức riêng, chẳng hạn như sự khác biệt trong việc triển khai trình tối ưu hóa Adam giữa các khung, khiến cho việc tái tạo chương trình đào tạo mà không có sự điều chỉnh là không thể.

Có lẽ khía cạnh hấp dẫn nhất của hành trình này là nhiệm vụ chạy thử nghiệm trên các thiết lập GPU cụ thể để có được các số liệu ban đầu và đường cong học tập. Đó là một hành trình đầy thử thách, từ những hạn chế về bộ nhớ trên nhiều loại GPU khác nhau cho đến việc di chuyển OpenAI tập dữ liệu giữa các cơ sở lưu trữ.

Tóm lại, việc khám phá Tối ưu hóa chính sách gần nhất (PPO) trong Học tập tăng cường từ phản hồi của con người (RLHF) cho thấy một thế giới phức tạp hấp dẫn.

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories
Tham gia bản tin của chúng tôi.
Tin mới nhất

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Side Protocol ra mắt Testnet được khuyến khích và giới thiệu hệ thống điểm nội bộ, cho phép người dùng kiếm điểm SIDE
thị trường Báo cáo tin tức Công nghệ
Side Protocol ra mắt Testnet được khuyến khích và giới thiệu hệ thống điểm nội bộ, cho phép người dùng kiếm điểm SIDE
9 Tháng Năm, 2024
Web3 và Sự kiện tiền điện tử vào tháng 2024 năm XNUMX: Khám phá các công nghệ mới và xu hướng mới nổi trong Blockchain và DeFi
Tiêu Kinh doanh thị trường Công nghệ
Web3 và Sự kiện tiền điện tử vào tháng 2024 năm XNUMX: Khám phá các công nghệ mới và xu hướng mới nổi trong Blockchain và DeFi
9 Tháng Năm, 2024
Notcoin sẽ ra mắt trên OKX Jumpstart, cung cấp 1.25% tổng nguồn cung cấp mã thông báo cho hoạt động khai thác
thị trường Báo cáo tin tức Công nghệ
Notcoin sẽ ra mắt trên OKX Jumpstart, cung cấp 1.25% tổng nguồn cung cấp mã thông báo cho hoạt động khai thác
9 Tháng Năm, 2024
Puffer Finance ra mắt Mainnet, tăng cường sự bao gồm của nhà điều hành nút để phân cấp mạng
Báo cáo tin tức Công nghệ
Puffer Finance ra mắt Mainnet, tăng cường sự bao gồm của nhà điều hành nút để phân cấp mạng
9 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH