뉴스 보도 Technology
2023 년 10 월 27 일

복제된 연구원 OpenAIRLHF의 PPO(Proximal Policy Optimization)를 기반으로 한 의 작업

인간 피드백을 통한 강화 학습(RLHF)은 다음과 같은 훈련 시스템의 필수적인 부분입니다. ChatGPT, 그리고 성공을 달성하기 위해서는 전문적인 방법에 의존합니다. 이러한 방법 중 하나인 PPO(Proximal Policy Optimization)는 처음에 잉태 된 벽 안에 OpenAI 언뜻 보기에 PPO는 구현의 단순성과 모델을 미세 조정하는 데 필요한 하이퍼 매개변수 수가 상대적으로 적다는 점에서 두각을 나타냈습니다. 그러나 그들이 말했듯이 악마는 세부 사항에 있습니다.

복제된 연구원 OpenAIRLHF의 PPO(Proximal Policy Optimization)를 기반으로 한 의 작업

최근에는 ''라는 제목의 블로그 글이 올라왔습니다.근접 정책 최적화의 37가지 구현 세부 사항” PPO의 복잡성을 조명합니다(ICLR 회의를 위해 준비됨). 이름만으로도 이 간단한 방법을 구현하는 데 직면한 어려움을 암시합니다. 놀랍게도 저자가 필요한 모든 정보를 수집하고 결과를 재현하는 데 XNUMX년이 걸렸습니다.

의 코드 OpenAI 저장소는 버전 간에 큰 변화를 겪었고, 일부 측면은 설명되지 않은 채로 남아 있었고, 버그로 나타나는 특이성은 어떻게든 결과를 낳았습니다. PPO의 복잡성은 세부 사항을 자세히 살펴보면 분명해지며, 깊은 이해나 자기 개선에 관심이 있는 사람들에게는 적극 권장되는 비디오 요약이 있습니다.

그러나 이야기는 거기서 끝나지 않습니다. 같은 저자가 다시 방문하기로 결정했습니다. openai/lm-human-preferences 저장소 2019년부터 PPO를 사용하여 인간의 선호도에 따라 언어 모델을 미세 조정하는 데 중요한 역할을 했습니다. 이 저장소는 초기 개발을 표시했습니다. ChatGPT. 최근 블로그 게시물 'PPO를 사용한 RLHF의 N 구현 세부 사항,”는 밀접하게 복제됩니다. OpenAI의 작업이지만 오래된 TensorFlow 대신 PyTorch와 최신 라이브러리를 사용합니다. 이러한 전환에는 프레임워크 간의 Adam 옵티마이저 구현 차이와 같은 자체적인 문제가 발생하여 조정 없이 훈련을 복제하는 것이 불가능해졌습니다.

아마도 이 여정에서 가장 흥미로운 측면은 특정 GPU 설정에 대한 실험을 실행하여 원래의 지표와 학습 곡선을 얻는 탐구일 것입니다. 다양한 GPU 유형의 메모리 제약부터 마이그레이션에 이르기까지 어려움으로 가득 찬 여정입니다. OpenAI 저장 시설 간의 데이터 세트.

결론적으로, RLHF(인간 피드백을 통한 강화 학습)에서 PPO(근위 정책 최적화)를 탐색하면 매혹적인 복잡성의 세계가 드러납니다.

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

더 많은 기사
다미르 얄랄로프
다미르 얄랄로프

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

Hot Stories
뉴스레터에 가입하세요.
최신 뉴스

변동성 속에서 비트코인 ​​ETF를 향한 기관의 선호도 증가

13F 서류를 통한 공개를 통해 주목할만한 기관 투자자들이 비트코인 ​​ETF에 손을 대고 있음이 드러났으며, 이는 비트코인 ​​ETF에 대한 수용이 증가하고 있음을 강조합니다.

현장 사진

선고일이 다가왔습니다: 미국 법원이 DOJ의 주장을 고려함에 따라 CZ의 운명이 균형을 이루고 있습니다.

자오창펑(Changpeng Zhao)은 오늘 시애틀의 미국 법원에서 선고를 받을 예정이다.

현장 사진
혁신적인 기술 커뮤니티에 참여하세요
상세 보기
자세히 보기
도널드 트럼프의 암호화폐로의 전환: 반대자에서 옹호자로, 그리고 이것이 미국 암호화폐 시장에 미치는 영향
근무지에서 발생 시장 이야기와 리뷰 Technology
도널드 트럼프의 암호화폐로의 전환: 반대자에서 옹호자로, 그리고 이것이 미국 암호화폐 시장에 미치는 영향
2024 년 5 월 10 일
Layer3, 올 여름 L3 토큰 출시, 총 공급량의 51%를 커뮤니티에 할당
시장 뉴스 보도 Technology
Layer3, 올 여름 L3 토큰 출시, 총 공급량의 51%를 커뮤니티에 할당
2024 년 5 월 10 일
비트코인 개발자에 대한 Edward Snowden의 마지막 경고: “프라이버시를 프로토콜 수준 우선순위로 삼지 않으면 손실 위험이 있습니다.
시장 보안 Wiki 소프트웨어 이야기와 리뷰 Technology
비트코인 개발자에 대한 Edward Snowden의 마지막 경고: “프라이버시를 프로토콜 수준 우선순위로 삼지 않으면 손실 위험이 있습니다.
2024 년 5 월 10 일
낙관주의 기반의 이더리움 레이어 2 네트워크 Mint, 15월 XNUMX일 메인넷 출시
뉴스 보도 Technology
낙관주의 기반의 이더리움 레이어 2 네트워크 Mint, 15월 XNUMX일 메인넷 출시
2024 년 5 월 10 일
CRYPTOMERIA LABS PTE. LTD.