뉴스 보도 Technology
2023년 6월 28일

OpenAI: 새로운 프로세스 감독 보상 모델링으로 AI 추론 향상

요컨대

OpenAI의 PRM(Process-Supervised Reward Modeling)은 AI 모델의 중간 단계와 추론을 평가하여 성능과 지표를 개선하는 것을 목표로 합니다.

OpenAI 프로세스 감독 보상 모델링의 획기적인 작업으로 다시 한 번 AI 커뮤니티의 관심을 끌었습니다.PRM). 이 혁신적인 접근 방식은 AI 모델의 중간 단계와 추론을 평가하여 성능과 지표를 개선하는 것을 목표로 합니다.

OpenAI: 새로운 프로세스 감독 보상 모델링으로 AI 추론 향상
신용 : Metaverse Post (mpost.io)
추천: ChatGPT 거래를 더 쉽게 만들어 월스트리트를 바꿀 수 있습니다

인간의 피드백을 통한 전통적인 강화 학습(RLHF), 모델 피드백은 일반적으로 모델에 의해 생성된 전체 결과를 기반으로 제공됩니다. 하지만, OpenAI의 새로운 연구는 모델이 수행하는 개별 단계 및 추론 프로세스를 평가하는 아이디어를 탐구합니다. 그렇게 함으로써 보다 세분화된 평가와 피드백을 제공할 수 있습니다.

이 문제를 해결하기 위해, OpenAI 여러 조치가 필요한 수학 문제를 선택했습니다. 분리 된 모델 중간 단계를 효과적으로 평가하도록 훈련받았고, 기본 모델이 내린 잘못된 판단을 식별하기 위한 비평가 역할을 했습니다. 이 프로세스는 전체 성능을 향상시킬 뿐만 아니라 모델의 기능을 평가하는 데 사용되는 메트릭도 향상시킵니다.

OpenAI 다음으로 구성된 세심하게 큐레이팅된 데이터 세트를 출시하면서 이 분야에서 상당한 발전을 이루었습니다. 800,000건의 채점 판정. 각 판단은 수학적 문제 해결의 개별 단계를 나타내며 수동으로 생성되었습니다. 이것은 헌신과 자원의 수준을 강조합니다. OpenAI 고품질 데이터 세트 개발에 투자, 프로그래밍 또는 개방형 질문과 같은 다른 영역에 대해 수집된 데이터의 양에 대한 질문을 제기합니다.

훈련 GPT-4, OpenAI의 최신 반복 GPT 시리즈는 이미 잘 진행되고 있습니다. RLHF 구성요소는 현재 실험에 포함되지 않지만 순수 언어 모델이 활용됩니다. 특히, OpenAI 의 여러 버전이 있음을 언급합니다. GPT-4, 심지어 가장 작은 버전이라도 교육에 필요한 리소스가 훨씬 적습니다. 약 200배나 적습니다.

다음에서 공유한 흥미로운 예 OpenAI 모델이 각 개별 결정 단계를 평가하는 방법을 보여줍니다. 게시물에 포함된 스크린샷에서 솔루션의 오류에 플래그가 지정되고 가장 낮은 정확성 점수가 빨간색으로 강조 표시됩니다.
신용 : OpenAI

다음에서 공유한 흥미로운 예 OpenAI 모델이 평가하는 방법을 보여줍니다. 각 개별 결정 단계. 게시물에 포함된 스크린샷에서 솔루션의 오류에 플래그가 지정되고 가장 낮은 정확성 점수가 빨간색으로 강조 표시됩니다. 이 데모는 모델의 추론 능력을 강조하고 의사 결정 프로세스에 대한 귀중한 통찰력을 제공합니다. OpenAI 또한 마크업에 대한 지침을 제공하여 크라우드 소싱자가 작업에 기여하고 혜택을 받을 수 있는 기회를 제공합니다.

As OpenAI 계속해서 AI 연구의 경계를 넓히고 있으며, 모델 추론 및 프로세스 감독 보상 모델링에 중점을 두어 향상된 AI 기능에 대한 새로운 가능성을 제공합니다. 이 최신 혁신은 모델 성능을 개선하려는 그들의 노력을 보여주고 현장에서 더 발전할 수 있는 문을 열어줍니다.

AI에 대해 자세히 알아보기:

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

더 많은 기사
다미르 얄랄로프
다미르 얄랄로프

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

Hot Stories
뉴스레터에 가입하세요.
최신 뉴스

변동성 속에서 비트코인 ​​ETF를 향한 기관의 선호도 증가

13F 서류를 통한 공개를 통해 주목할만한 기관 투자자들이 비트코인 ​​ETF에 손을 대고 있음이 드러났으며, 이는 비트코인 ​​ETF에 대한 수용이 증가하고 있음을 강조합니다.

현장 사진

선고일이 다가왔습니다: 미국 법원이 DOJ의 주장을 고려함에 따라 CZ의 운명이 균형을 이루고 있습니다.

자오창펑(Changpeng Zhao)은 오늘 시애틀의 미국 법원에서 선고를 받을 예정이다.

현장 사진
혁신적인 기술 커뮤니티에 참여하세요
상세 보기
자세히 보기
도널드 트럼프의 암호화폐로의 전환: 반대자에서 옹호자로, 그리고 이것이 미국 암호화폐 시장에 미치는 영향
근무지에서 발생 시장 이야기와 리뷰 Technology
도널드 트럼프의 암호화폐로의 전환: 반대자에서 옹호자로, 그리고 이것이 미국 암호화폐 시장에 미치는 영향
2024 년 5 월 10 일
Layer3, 올 여름 L3 토큰 출시, 총 공급량의 51%를 커뮤니티에 할당
시장 뉴스 보도 Technology
Layer3, 올 여름 L3 토큰 출시, 총 공급량의 51%를 커뮤니티에 할당
2024 년 5 월 10 일
비트코인 개발자에 대한 Edward Snowden의 마지막 경고: “프라이버시를 프로토콜 수준 우선순위로 삼지 않으면 손실 위험이 있습니다.
시장 보안 Wiki 소프트웨어 이야기와 리뷰 Technology
비트코인 개발자에 대한 Edward Snowden의 마지막 경고: “프라이버시를 프로토콜 수준 우선순위로 삼지 않으면 손실 위험이 있습니다.
2024 년 5 월 10 일
낙관주의 기반의 이더리움 레이어 2 네트워크 Mint, 15월 XNUMX일 메인넷 출시
뉴스 보도 Technology
낙관주의 기반의 이더리움 레이어 2 네트워크 Mint, 15월 XNUMX일 메인넷 출시
2024 년 5 월 10 일
CRYPTOMERIA LABS PTE. LTD.