GPT-4 초과 수익률 GPT-3.5 다양한 연구 벤치마크에 대한 전반적
요컨대
XNUMXD덴탈의 GPT-4 보다 높은 등급 기준을 달성했습니다. GPT-3.5 다양한 벤치마크에서.
이것은 기계가 인간과 같은 지능을 가질 수 있을 뿐만 아니라 우리를 능가할 수 있다는 것을 보여주는 주요 성과이며, 이는 AI의 미래와 고용 시장에 대한 잠재적 영향에 대한 질문을 제기합니다.
GPT-4 기존 빅 언어 모델은 물론 추가 교육 프로토콜이나 벤치마크별 설계를 사용하는 모델을 포함하여 최첨단(SOTA) 모델의 성능을 크게 능가합니다.
XNUMXD덴탈의 GPT-4 보다 높은 점수를 얻었습니다. GPT-3.5 다양한 벤치마크에서. 이는 기계가 원래 설계된 문제를 해결할 수 있을 뿐만 아니라 대학생보다 더 잘 해결할 수 있음을 입증하는 획기적인 혁신입니다.
이 결과를 볼 때 고려해야 할 몇 가지 사항이 있습니다. 첫째로, GPT-4 이 시험에 대한 특정 교육을 받지 않았습니다. 공개적으로 사용 가능한 최신 테스트(올림피아드 및 AP 무료 응답 질문의 경우)를 사용하거나 2022~2023년 버전의 연습 시험을 구매하여 진행되었습니다. 둘째, 다음과 같은 점에 유의하는 것이 중요합니다. GPT-4의 성능은 서로 다른 원칙과 알고리즘에 따라 작동하므로 시험 응시자의 능력을 반드시 반영하는 것은 아닙니다.
이것은 다음과 같은 주요 성과입니다. 이것은 보여준다 기계는 인간과 같은 지능을 가질 수 있을 뿐만 아니라 우리를 능가할 수도 있습니다. 이것은 기계가 점점 더 복잡한 작업을 수행할 수 있는 미래를 위한 길을 열어주고 궁극적으로 기계가 일상 생활에서 우리를 도울 수 있는 미래로 이어집니다.
GPT-4예를 들어, 시험 응시자 중 상위 10%의 점수로 모의 변호사 시험을 통과합니다. GPT-3.5점은 하위 10%에 속했습니다. 이 획기적인 개선은 GPT-4의 성능은 더 큰 훈련 데이터와 향상된 아키텍처로 인해 발생합니다. 자연어 처리, 자동 글쓰기 등 다양한 분야에서 폭넓게 활용될 것으로 기대된다.
추가 교육 프로토콜 또는 벤치마크별 설계를 사용할 수 있는 모델과 기존의 큰 언어 모델, 는 다음과 같이 크게 뛰어납니다. GPT-4.
내부적으로 개발자들은 GPT-4, 이는 프로그래밍, 판매, 지원 및 콘텐츠 조정과 같은 활동에 상당한 영향을 미쳤습니다. 개발자가 AI 결과를 검토하는 데 도움을 주기 위해 정렬 방법의 두 번째 단계가 현재 진행 중입니다.
MMLU(Massive Multi-Task Language Understanding) 데이터 세트에는 다양한 작업(수학, 생물학, 법, 사회 및 인간 과학 등을 포함하여 57개 영역에 걸쳐 있음)에서 언어 이해에 대한 매우 광범위한 주제의 질문이 포함되어 있습니다. 질문에 대한 네 가지 가능한 답변이 있으며 그 중 하나가 맞습니다. 즉, 무작위 추측은 25% 정답의 결과를 보여줍니다. 질문의 예와 어려움은 아래 그림을 참조하십시오. 평균적인 사람 마커(즉, 이것은 과학자도 아니고 교수도 아닙니다. 마크업으로 달빛을 비추는 평범한 사람)는 질문의 35%에 정확하게 대답합니다. 그러나 전문가는 +/- 90%의 점수에 도달할 수 있습니다.
원래 전체 데이터세트는 영어로 되어 있었습니다. 하지만 질문과 답변이 다른 언어, 특히 덜 일반적인 언어로 번역되면 어떻게 될까요? 모델이 어떻게든 그들에게 효과가 있을까요? 이번 테스트에서는 번역을 위해 Microsoft Azure Translate 서비스를 사용했습니다. 번역은 완벽하지 않습니다. 어떤 경우에는 중요한 정보가 손실됩니다. 그러나 이 경우에도, GPT-4 다른 언어에서도 잘 작동합니다. MMLU의 번역된 버전에서는 GPT-4 검사된 24개 언어 중 26개 언어에서 다른 대형 모델(Google 포함)의 영어 수준을 능가합니다.
또 뭔데, GPT-4 다음보다 희귀한 언어에서 더 나은 성능을 발휘합니다. ChatGPT 영어로 했다(ChatGPT 70.1%의 점수를 획득한 반면, 새 모델의 태국어 점수는 71.8%였습니다. 영어 시험 점수가 가장 높았고, GPT-4 Google의 가장 큰 PaLM을 포함하여 다른 모델보다 10% 더 나은 성능을 발휘합니다. 86.4%의 점수를 얻었고, 전문가 집단은 90%의 점수를 얻었습니다.
- 2023년 여름까지 AI는 ChatGPT, 을 사용하는 챗봇 GPT-4 알고리즘과 실적이 좋다 GPT-3 570 배. 다양한 요소가 기여 ChatGPT보다 "인간과 유사한" 디자인, 최첨단 데이터 마이닝 및 자연어 처리를 사용하여 효율성과 정확성을 높이는 등 의 성공에 힘을 실었습니다.
- 마이크로 소프트와 OpenAI 는 XNUMX월에 Bing 검색이 AI로 강화된 조회 기능을 채택하기 위한 협업 갱신과 계획을 발표했습니다. 매우 정교함 GPT3.5 모델 교체, GPT4, 방금 출시되었습니다, 자연어 쿼리를 이해하고 더 정확한 결과를 제공하는 Bing 검색의 기능을 크게 향상시킬 수 있는 잠재력이 있습니다. 문제가 발생할 경우를 대비하여 좋은 백업 계획을 세우는 것이 좋습니다.
더 많은 관련 뉴스 읽기:
책임 부인
줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.
저자에 관하여
Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다.
더 많은 기사Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다.