뉴스 보도 Technology
2023 년 3 월 15 일

GPT-4 초과 수익률 GPT-3.5 다양한 연구 벤치마크에 대한 전반적

요컨대

XNUMXD덴탈의 GPT-4 보다 높은 등급 기준을 달성했습니다. GPT-3.5 다양한 벤치마크에서.

이것은 기계가 인간과 같은 지능을 가질 수 있을 뿐만 아니라 우리를 능가할 수 있다는 것을 보여주는 주요 성과이며, 이는 AI의 미래와 고용 시장에 대한 잠재적 영향에 대한 질문을 제기합니다.

GPT-4 기존 빅 언어 모델은 물론 추가 교육 프로토콜이나 벤치마크별 설계를 사용하는 모델을 포함하여 최첨단(SOTA) 모델의 성능을 크게 능가합니다.

XNUMXD덴탈의 GPT-4 보다 높은 점수를 얻었습니다. GPT-3.5 다양한 벤치마크에서. 이는 기계가 원래 설계된 문제를 해결할 수 있을 뿐만 아니라 대학생보다 더 잘 해결할 수 있음을 입증하는 획기적인 혁신입니다.

GPT-4 실적이 좋다 GPT-3.5 다양한 연구 벤치마크에서 전반적으로

이 결과를 볼 때 고려해야 할 몇 가지 사항이 있습니다. 첫째로, GPT-4 이 시험에 대한 특정 교육을 받지 않았습니다. 공개적으로 사용 가능한 최신 테스트(올림피아드 및 AP 무료 응답 질문의 경우)를 사용하거나 2022~2023년 버전의 연습 시험을 구매하여 진행되었습니다. 둘째, 다음과 같은 점에 유의하는 것이 중요합니다. GPT-4의 성능은 서로 다른 원칙과 알고리즘에 따라 작동하므로 시험 응시자의 능력을 반드시 반영하는 것은 아닙니다.

이것은 다음과 같은 주요 성과입니다. 이것은 보여준다 기계는 인간과 같은 지능을 가질 수 있을 뿐만 아니라 우리를 능가할 수도 있습니다. 이것은 기계가 점점 더 복잡한 작업을 수행할 수 있는 미래를 위한 길을 열어주고 궁극적으로 기계가 일상 생활에서 우리를 도울 수 있는 미래로 이어집니다.

XNUMXD덴탈의 GPT-4특정 작업에서 인간을 능가하는 인간의 능력은 미래에 대한 의문을 제기합니다. 인공 지능 그리고 고용 시장에 대한 잠재적 영향. 또한 AI가 윤리적이고 책임감 있게 사용되도록 하기 위해 이 분야에서 지속적인 연구 개발의 필요성을 강조합니다.
더 읽기 : 5년 가장 기대되는 Text-to-Image AI 모델 2023개 이상

GPT-4예를 들어, 시험 응시자 중 상위 10%의 점수로 모의 변호사 시험을 통과합니다. GPT-3.5점은 하위 10%에 속했습니다. 이 획기적인 개선은 GPT-4의 성능은 더 큰 훈련 데이터와 향상된 아키텍처로 인해 발생합니다. 자연어 처리, 자동 글쓰기 등 다양한 분야에서 폭넓게 활용될 것으로 기대된다.

 
GPT-4 대부분의 전문 및 학술 시험에서 인간 수준의 성과를 보여줍니다. 특히, 시험 응시자 중 상위 10%의 점수로 통일 변호사 시험 모의 버전을 통과했습니다. 시험에서 모델의 기능은 주로 사전 훈련 프로세스에서 비롯된 것으로 보이며 RLHF의 영향을 크게 받지 않습니다. 객관식 질문에서는 두 가지 기본 GPT-4 모델과 RLHF 모델은 테스트한 시험 개발자 전체에서 평균적으로 동등하게 우수한 성능을 보였습니다.

추가 교육 프로토콜 또는 벤치마크별 설계를 사용할 수 있는 모델과 기존의 큰 언어 모델, 는 다음과 같이 크게 뛰어납니다. GPT-4.

GPT-4학업 표준 측면에서 의 성과. 개발자 대비 GPT-4 LM 평가 소수 샷을 위한 최고의 SOTA와 벤치마크별 교육을 통한 최고의 SOTA를 제공합니다. DROP을 제외하고, GPT-4 벤치마크별 교육을 통해 모든 벤치마크 및 SOTA에서 현재의 모든 LM보다 뛰어난 성능을 발휘합니다.

내부적으로 개발자들은 GPT-4, 이는 프로그래밍, 판매, 지원 및 콘텐츠 조정과 같은 활동에 상당한 영향을 미쳤습니다. 개발자가 AI 결과를 검토하는 데 도움을 주기 위해 정렬 방법의 두 번째 단계가 현재 진행 중입니다.

MMLU(Massive Multi-Task Language Understanding) 데이터 세트에는 다양한 작업(수학, 생물학, 법, 사회 및 인간 과학 등을 포함하여 57개 영역에 걸쳐 있음)에서 언어 이해에 대한 매우 광범위한 주제의 질문이 포함되어 있습니다. 질문에 대한 네 가지 가능한 답변이 있으며 그 중 하나가 맞습니다. 즉, 무작위 추측은 25% 정답의 결과를 보여줍니다. 질문의 예와 어려움은 아래 그림을 참조하십시오. 평균적인 사람 마커(즉, 이것은 과학자도 아니고 교수도 아닙니다. 마크업으로 달빛을 비추는 평범한 사람)는 질문의 35%에 정확하게 대답합니다. 그러나 전문가는 +/- 90%의 점수에 도달할 수 있습니다.

의 성능 GPT-4 MMLU의 영어로 된 이전 모델과 비교하여 다양한 언어로 제공됩니다. GPT-4 라트비아어, 웨일스어, 스와힐리어와 같은 자원이 적은 언어를 포함하여 조사된 대부분의 언어에 대해 기존 언어 모델의 영어 성능을 능가합니다.
더 읽기 : Google보다 AI 기반 Bing을 사용해야 하는 5가지 이유

원래 전체 데이터세트는 영어로 되어 있었습니다. 하지만 질문과 답변이 다른 언어, 특히 덜 일반적인 언어로 번역되면 어떻게 될까요? 모델이 어떻게든 그들에게 효과가 있을까요? 이번 테스트에서는 번역을 위해 Microsoft Azure Translate 서비스를 사용했습니다. 번역은 완벽하지 않습니다. 어떤 경우에는 중요한 정보가 손실됩니다. 그러나 이 경우에도, GPT-4 다른 언어에서도 잘 작동합니다. MMLU의 번역된 버전에서는 GPT-4 검사된 24개 언어 중 26개 언어에서 다른 대형 모델(Google 포함)의 영어 수준을 능가합니다.

또 뭔데, GPT-4 다음보다 희귀한 언어에서 더 나은 성능을 발휘합니다. ChatGPT 영어로 했다(ChatGPT 70.1%의 점수를 획득한 반면, 새 모델의 태국어 점수는 71.8%였습니다. 영어 시험 점수가 가장 높았고, GPT-4 Google의 가장 큰 PaLM을 포함하여 다른 모델보다 10% 더 나은 성능을 발휘합니다. 86.4%의 점수를 얻었고, 전문가 집단은 90%의 점수를 얻었습니다.

  • 2023년 여름까지 AI는 ChatGPT, 을 사용하는 챗봇 GPT-4 알고리즘과 실적이 좋다 GPT-3 570 배. 다양한 요소가 기여 ChatGPT보다 "인간과 유사한" 디자인, 최첨단 데이터 마이닝 및 자연어 처리를 사용하여 효율성과 정확성을 높이는 등 의 성공에 힘을 실었습니다.
  • 마이크로 소프트와 OpenAI 는 XNUMX월에 Bing 검색이 AI로 강화된 조회 기능을 채택하기 위한 협업 갱신과 계획을 발표했습니다. 매우 정교함 GPT3.5 모델 교체, GPT4, 방금 출시되었습니다, 자연어 쿼리를 이해하고 더 정확한 결과를 제공하는 Bing 검색의 기능을 크게 향상시킬 수 있는 잠재력이 있습니다. 문제가 발생할 경우를 대비하여 좋은 백업 계획을 세우는 것이 좋습니다.

더 많은 관련 뉴스 읽기:

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

더 많은 기사
다미르 얄랄로프
다미르 얄랄로프

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

Hot Stories
뉴스레터에 가입하세요.
최신 뉴스

변동성 속에서 비트코인 ​​ETF를 향한 기관의 선호도 증가

13F 서류를 통한 공개를 통해 주목할만한 기관 투자자들이 비트코인 ​​ETF에 손을 대고 있음이 드러났으며, 이는 비트코인 ​​ETF에 대한 수용이 증가하고 있음을 강조합니다.

현장 사진

선고일이 다가왔습니다: 미국 법원이 DOJ의 주장을 고려함에 따라 CZ의 운명이 균형을 이루고 있습니다.

자오창펑(Changpeng Zhao)은 오늘 시애틀의 미국 법원에서 선고를 받을 예정이다.

현장 사진
혁신적인 기술 커뮤니티에 참여하세요
상세 보기
자세히 보기
Injective는 AltLayer와 힘을 합쳐 inEVM에 재스테이킹 보안을 도입했습니다.
근무지에서 발생 뉴스 보도 Technology
Injective는 AltLayer와 힘을 합쳐 inEVM에 재스테이킹 보안을 도입했습니다.
2024 년 5 월 3 일
Masa는 텔러와 협력하여 MASA 대출 풀을 도입하고 USDC에서 베이스 대출을 활성화합니다.
시장 뉴스 보도 Technology
Masa는 텔러와 협력하여 MASA 대출 풀을 도입하고 USDC에서 베이스 대출을 활성화합니다.
2024 년 5 월 3 일
Velodrome은 앞으로 몇 주 안에 Superchain 베타 버전을 출시하고 OP 스택 레이어 2 블록체인으로 확장합니다.
시장 뉴스 보도 Technology
Velodrome은 앞으로 몇 주 안에 Superchain 베타 버전을 출시하고 OP 스택 레이어 2 블록체인으로 확장합니다.
2024 년 5 월 3 일
CARV, 데이터 계층을 분산화하고 보상을 분배하기 위해 Aethir와의 파트너십 발표
근무지에서 발생 뉴스 보도 Technology
CARV, 데이터 계층을 분산화하고 보상을 분배하기 위해 Aethir와의 파트너십 발표
2024 년 5 월 3 일
CRYPTOMERIA LABS PTE. LTD.