뉴스 보도 Technology
2023 년 3 월 16 일

OpenAI AI 모델 평가를 위한 오픈 소스 소프트웨어 프레임워크인 Evals 발표

요컨대

OpenAI 다음과 같은 AI 모델을 평가하기 위한 벤치마크를 크라우드소싱하기를 희망합니다. GPT-4.

결제 처리 회사인 Stripe은 이미 Evals를 사용하여 결제의 정확성을 측정했습니다. GPT- 강화된 문서화 도구.

OpenAI 부여할 것이다 GPT-4 고품질 평가에 기여한 사람들에게 제한된 시간 동안 액세스할 수 있습니다.

OpenAI AI 모델 평가를 위한 오픈 소스 소프트웨어 프레임워크인 Evals 발표

발표와 함께 GPT-4, OpenAI 오픈 소스 소프트웨어 프레임워크를 발표했습니다. OpenAI 평가. 이 도구는 다음과 같은 모델의 성능을 평가하는 벤치마크를 생성하고 실행하도록 설계되었습니다. GPT-4. 평가판과 함께, OpenAI AI 모델 테스트를 위한 크라우드소싱 벤치마크를 희망합니다. 

"우리는 Evals를 사용하여 모델 개발(단점 식별 및 회귀 방지 모두)을 안내하고 사용자는 모델 버전(이제 정기적으로 출시될 예정임) 및 진화하는 제품 통합에 걸쳐 성능을 추적하는 데 이를 적용할 수 있습니다."라고 회사는 설명합니다. ㅏ 블로그 게시물.

인기 결제 처리 회사인 Stripe는 이미 Evals를 사용하여 인간 평가를 보완하고 평가의 정확성을 측정했습니다. GPT- 강화된 문서화 도구.

개발자는 평가를 사용하여 다음과 같은 평가를 만들고 실행할 수 있습니다.

  • 데이터 세트를 사용하여 프롬프트 생성,
  • 에서 제공하는 완료 품질을 측정합니다. OpenAI 모델
  • 다양한 데이터 세트 및 모델에서 성능을 비교합니다.

오픈 소스 코드를 사용하여 개발자는 다음을 작성하고 추가할 수도 있습니다. 맞춤 평가 만큼 잘 여러 템플릿 이는 다양한 벤치마크를 수용할 수 있습니다. 회사는 "모델 등급 평가"용 템플릿을 포함하여 내부적으로 가장 유용한 템플릿을 포함시켰습니다. GPT-4 자신의 작업을 확인하는 데 사용할 수 있습니다. 따라야 할 예로서 회사는 XNUMX개의 프롬프트가 포함된 논리 퍼즐 평가를 만들었습니다. GPT-4 실패합니다.

Evals는 학술 벤치마크를 구현하는 여러 노트북과 CoQA의 작은 하위 집합을 통합하는 몇 가지 변형을 포함하여 기존 벤치마크 구현과도 호환됩니다.

개발자는 평가판 기여에 대해 보수를 받지 않지만 OpenAI 부여할 것이다 GPT-4 "고품질 평가"에 기여한 사람들에게 제한된 시간 동안 액세스할 수 있습니다. 

Evals의 발표는 다음에 나옵니다. OpenAI 최근에 말했다 고객이 옵트인하기로 결정하지 않는 한 API를 통해 고객이 제출한 데이터를 사용하여 모델을 교육하거나 개선하는 것을 중단할 것입니다. -예술 모델” 다이나벤치 플랫폼입니다.

더 읽기 :

태그 :

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Cindy는 언론인입니다. Metaverse Post, 관련 주제를 다루는 web3, NFT, metaverse 및 AI, 인터뷰를 중심으로 Web3 업계 플레이어. 그녀는 30명이 넘는 최고 경영진과 이야기를 나누며 그들의 귀중한 통찰력을 독자들에게 전했습니다. 원래 싱가포르 출신인 Cindy는 현재 조지아주 트빌리시에 거주하고 있습니다. 그녀는 사우스 오스트레일리아 대학에서 커뮤니케이션 및 미디어 연구 학사 학위를 취득했으며 저널리즘과 글쓰기 분야에서 XNUMX년 간의 경험을 갖고 있습니다. 다음을 통해 그녀에게 연락하세요. [이메일 보호] 보도 자료, 발표 및 인터뷰 기회가 있습니다.

더 많은 기사
신디 탄
신디 탄

Cindy는 언론인입니다. Metaverse Post, 관련 주제를 다루는 web3, NFT, metaverse 및 AI, 인터뷰를 중심으로 Web3 업계 플레이어. 그녀는 30명이 넘는 최고 경영진과 이야기를 나누며 그들의 귀중한 통찰력을 독자들에게 전했습니다. 원래 싱가포르 출신인 Cindy는 현재 조지아주 트빌리시에 거주하고 있습니다. 그녀는 사우스 오스트레일리아 대학에서 커뮤니케이션 및 미디어 연구 학사 학위를 취득했으며 저널리즘과 글쓰기 분야에서 XNUMX년 간의 경험을 갖고 있습니다. 다음을 통해 그녀에게 연락하세요. [이메일 보호] 보도 자료, 발표 및 인터뷰 기회가 있습니다.

Hot Stories

BRICS Nations Eye Stablecoin 거래 솔루션

by 빅토리아 팔치크
2024 년 5 월 01 일
뉴스레터에 가입하세요.
최신 뉴스

선고일이 다가왔습니다: 미국 법원이 DOJ의 주장을 고려함에 따라 CZ의 운명이 균형을 이루고 있습니다.

자오창펑(Changpeng Zhao)은 오늘 시애틀의 미국 법원에서 선고를 받을 예정이다.

현장 사진

Samourai Wallet 창립자들은 다크넷 거래에서 2억 달러를 촉진한 혐의로 기소되었습니다

Samourai Wallet 창립자들의 우려는 업계에 주목할만한 좌절을 의미하며 지속적인 ...

현장 사진
혁신적인 기술 커뮤니티에 참여하세요
상세 보기
자세히 보기
Ankr, AI 블록체인 플랫폼 Talus Network와 협력하여 AI용 비트코인 ​​유동성 잠금 해제
근무지에서 발생 뉴스 보도 Technology
Ankr, AI 블록체인 플랫폼 Talus Network와 협력하여 AI용 비트코인 ​​유동성 잠금 해제
2024 년 5 월 1 일
Binance Labs는 블록체인 전반에 걸쳐 Facebook의 Move 통합을 촉진하기 위해 Movement Lab을 지원합니다
근무지에서 발생 뉴스 보도 Technology
Binance Labs는 블록체인 전반에 걸쳐 Facebook의 Move 통합을 촉진하기 위해 Movement Lab을 지원합니다
2024 년 5 월 1 일
BRICS Nations Eye Stablecoin 거래 솔루션
근무지에서 발생 시장 이야기와 리뷰 Technology
BRICS Nations Eye Stablecoin 거래 솔루션
2024 년 5 월 1 일
비트코인 L2 네트워크 BOB, 향상된 기능을 위해 LayerZero와 통합
근무지에서 발생 뉴스 보도 Technology
비트코인 L2 네트워크 BOB, 향상된 기능을 위해 LayerZero와 통합
2024 년 5 월 1 일
CRYPTOMERIA LABS PTE. LTD.