뉴스 보도 SMW Technology
2023 년 5 월 30 일

GPT-4미국 변호사 시험에서의 성적은 주장과 모순됩니다

요컨대

시험 GPT-4의 사법시험 성적은 추정 성과와 실제 성과의 차이를 드러냈고, 투명한 평가 절차와 접근 가능한 데이터의 중요성을 강조했습니다.

OpenAI 신뢰를 얻고 신뢰성을 확보하기 위해 불일치를 해결하고 AI 모델 평가에 대한 보다 포괄적이고 신뢰할 수 있는 접근 방식을 개발하도록 권장됩니다.

최근 한 조사에서 GPT-4의 사법시험 성적(우베), 정확성에 대한 의문이 제기되었습니다. OpenAI모델의 성공률에 대한 님의 주장. 라는 초기 주장과 달리 GPT-4 개인의 90%를 능가합니다., 결과는 AI 모델의 예상 성능과 실제 성능 사이에 상당한 차이가 있음을 시사합니다. 이 계시는 그러한 주장을 검증하기 위한 투명한 평가 절차와 접근 가능한 데이터의 중요성을 강조합니다.

GPT-4미국 변호사 시험에서의 성적은 주장과 모순됩니다
@Midjourney

시험은 진정한 능력을 확인하기 위해 다양한 요소에 중점을 두었습니다. GPT-4. 첫째로, 분석 일리노이주 XNUMX월 시험에서 GPT-4의 점수는 90 번째 백분위 수. 그러나 이러한 점수는 이전에 XNUMX월 시험에 불합격하여 전체 평균보다 낮은 점수를 받은 재응시자의 영향을 많이 받은 것으로 관찰되었습니다.

게다가 XNUMX월 모의고사 결과는 OpenAI의 주장을 밝혀 GPT-4 단지 실적이 좋다 사람이 68%, 에세이가 48%입니다. GPT-4처음 응시자에 대한 의 성적(재응시 제외)은 여러 기간에 걸쳐 여러 테스트의 공식 데이터를 고려할 때 63번째 백분위수로 평가되었으며, 에세이 점수는 41번째 백분위수에서 상당히 낮았습니다.

면허를 취득한 개인과 면허를 기다리는 사람을 포함하여 시험에 합격한 사람들의 성과를 조사하여 추가적인 관점을 얻었습니다. 이와 관련하여, GPT-4의 전반적인 성과는 48번째 백분위수로 평가되었으며, 에세이는 15번째 백분위수에서 더욱 나빴습니다.

이러한 결과는 문제가 되지만 검토 과정에서 사람의 실수 가능성을 고려하는 것이 중요합니다. 기사의 저자는 연구자가 평가에 사용하는 샘플을 이해하는 것이 중요하다고 강조합니다. GPT-4의 공연. 특히 집계된 형식의 공식 데이터가 부족하여 백분위수의 공정한 비교와 평가가 어렵습니다. 모든 이해관계자가 평가할 수 있는 명확하고 접근 가능한 평가 기법을 확립하는 것이 중요합니다.

이러한 우려에 대해, OpenAI 불일치를 해결하도록 촉구하고 추가 통찰력 제공 평가 과정에 들어갑니다. 투명성과 개방성은 신뢰를 얻고 법률과 같은 고위험 영역에서 AI 모델의 신뢰성을 보장하는 데 필수적입니다.

이 기사에서는 다음이 달성한 특정 점수에 대해 논의하지 않습니다. GPT-4, 이는 298로 보고됩니다. 이 점수의 중요성을 평가하려면 사용된 채점 시스템에 대한 상황적 이해가 필요합니다. B를 받고 학교에서 집으로 돌아오는 아이가 축하의 원인이 될 수도 있고 실망의 원인이 될 수도 있는 것처럼, GPT-4의 점수는 사용된 척도에 따라 달라집니다.

평가 GPT-4변호사 시험 성적 심각한 우려 제기 진실성에 대해 OpenAI의 초기 주장. 예상 성과와 실제 성과 사이의 격차는 명확한 평가 시스템과 쉽게 접근할 수 있는 데이터의 중요성을 강조합니다. OpenAI 이러한 문제를 해결하고 보다 포괄적이고 AI에 대한 신뢰할 수 있는 접근 모델 평가.

AI에 대해 자세히 알아보기:

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

더 많은 기사
다미르 얄랄로프
다미르 얄랄로프

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

Hot Stories
뉴스레터에 가입하세요.
최신 뉴스

선고일이 다가왔습니다: 미국 법원이 DOJ의 주장을 고려함에 따라 CZ의 운명이 균형을 이루고 있습니다.

자오창펑(Changpeng Zhao)은 오늘 시애틀의 미국 법원에서 선고를 받을 예정이다.

현장 사진

Samourai Wallet 창립자들은 다크넷 거래에서 2억 달러를 촉진한 혐의로 기소되었습니다

Samourai Wallet 창립자들의 우려는 업계에 주목할만한 좌절을 의미하며 지속적인 ...

현장 사진
혁신적인 기술 커뮤니티에 참여하세요
상세 보기
자세히 보기
BNB 체인, 두 번째 시즌 공개 Airdrop 얼라이언스 프로그램, 커뮤니티 보상을 위한 7개의 새로운 프로젝트와 파트너십
시장 뉴스 보도 Technology
BNB 체인, 두 번째 시즌 공개 Airdrop 얼라이언스 프로그램, 커뮤니티 보상을 위한 7개의 새로운 프로젝트와 파트너십
2024 년 4 월 30 일
dWallet Network는 Monad를 통합하여 네이티브 멀티체인으로 이를 향상시킵니다. DeFi 기능
근무지에서 발생 뉴스 보도 Technology
dWallet Network는 Monad를 통합하여 네이티브 멀티체인으로 이를 향상시킵니다. DeFi 기능
2024 년 4 월 30 일
Animoca 브랜드, Darewise와 협력하여 Opal Bitcoin 프로젝트 시작, Bitcoin 영역으로 확장
근무지에서 발생 뉴스 보도 Technology
Animoca 브랜드, Darewise와 협력하여 Opal Bitcoin 프로젝트 시작, Bitcoin 영역으로 확장
2024 년 4 월 30 일
HashKey 그룹, Bosera HashKey 비트코인 ​​ETF의 탄소 중립 달성을 위해 GreenBTC.Club과 협력
근무지에서 발생 뉴스 보도 Technology
HashKey 그룹, Bosera HashKey 비트코인 ​​ETF의 탄소 중립 달성을 위해 GreenBTC.Club과 협력
2024 년 4 월 30 일
CRYPTOMERIA LABS PTE. LTD.