뉴스 보도 Technology
2023 년 7 월 20 일

스탠포드의 연구 결과가 확인되었습니다 GPT-4 점점 더 멍청해지고 있어

요컨대

Matei Zaharia와 Stanford 및 UC Berkeley 팀의 연구에서는 다음과 같은 성능을 비교했습니다. GPT-4 및 ChatGPT 모델의 효율성에 대한 사용자의 우려를 해결합니다.

이 연구는 수학, 코딩, 민감도 및 시각적 추론의 네 가지 특정 작업에 대한 모델을 평가했습니다.

Stanford와 UC Berkeley의 Matei Zaharia와 그의 팀 연구를 실시하다 의 성능을 비교한 것입니다. GPT-4 에 ChatGPT. 이 조사는 모델의 효과가 줄어들었다는 사용자의 우려를 해결하고자 했습니다.

스탠포드의 연구 결과가 확인되었습니다 GPT-4 점점 더 멍청해지고 있어
신용 : Metaverse Post
관련: GPT-4 대 GPT-3: 새 모델은 무엇을 제공해야 합니까?

연구원들은 네 가지 특정 작업에 대한 모델을 평가하기 위해 연구를 설계했습니다. 이러한 작업에는 다음이 포함됩니다.

  • 수학: 주어진 숫자가 소수인지 합성수인지를 결정하는 모델의 능력.
  • 코딩: 의미 있고 기능적인 코드를 생성하는 모델의 기능을 평가합니다.
  • 민감도: 잠재적으로 "유해한" 콘텐츠가 포함된 질문에 대한 모델의 응답을 분석합니다.
  • 시각적 추론: ARC 벤치마크를 사용하여 시각적 패턴과 관련된 문제를 해결하기 위한 모델의 적성을 테스트합니다. 참가자들은 일련의 이미지에서 패턴을 식별하고 이를 적용하여 새로운 예를 해결해야 했습니다.

수학 분야에서는 둘 다 GPT-4 버전인 XNUMX월과 XNUMX월 릴리스는 소수와 합성수를 결정하는 데 있어서 일관된 정확성을 보여주었습니다. 모델은 이러한 계산을 능숙하게 처리하여 신뢰할 수 있는 결과를 제공했습니다.

코딩으로 넘어가서, GPT-4 이전 버전에 비해 의미 있고 기능적인 코드를 생성하는 향상된 능력을 보여주었습니다. 모델의 코드 생성 기능은 가능성을 보여 개발자와 프로그래머에게 잠재적인 이점을 제공했습니다.

민감도와 관련하여 연구에서는 잠재적으로 유해하거나 공격적인 콘텐츠가 포함된 질문에 대한 모델의 반응을 평가했습니다. GPT-4 향상된 민감도 분석을 시연했으며 이러한 상황에서 적절한 응답을 제공하는 향상된 능력을 보여주었습니다. 이는 잠재적으로 문제가 있는 출력에 대한 사용자의 우려를 해결하는 데 있어서 긍정적인 진전을 의미합니다.

마지막으로 ARC 벤치마크를 기반으로 한 시각적 추론 작업은 두 팀 모두 성공적으로 완료되었습니다. GPT-4 버전. 모델은 이미지 세트 내의 패턴을 효과적으로 식별하고 이러한 패턴을 적용하여 새로운 예를 해결하는 능력을 보여주었습니다. 이는 시각적 이해와 추론 능력을 보여줍니다.

결과는 다음을 나타냅니다. GPT-4 정답률은 2% 남짓으로 정확도가 감소했습니다. 이 특정 테스트는 기본적으로 모델의 고유한 수학적 능력을 보여주기보다는 모델의 데이터 기억 능력을 평가한다는 점에 유의하는 것이 중요합니다. 모델에는 특히 소수의 경우 계산 검증 및 추론 기능이 부족하기 때문에 작업은 메모리 회상을 중심으로 진행됩니다.

ChatGPT XNUMX월까지 성능 지표에서 상당한 성장을 보여 XNUMX배 이상의 놀라운 개선을 보여주었습니다. 이 연구가 이러한 향상에 기여하는 특정 요인을 조사하지는 않았지만, ChatGPT수학적 추론 및 문제 해결 능력의 발전.

이 연구는 생성된 코드의 품질이나 정확성을 평가하지 않았습니다. 대신, 모델은 기능적 정확성을 보장하지 않고 코드 스니펫을 제공하는 보다 "맞춤형" 동작을 보이는 것으로 나타났습니다.
관련: 10년 최고의 AI 포토 인핸서 2023개 이상

의 품질 GPT-4 및 ChatGPT 프로그래밍 능력을 분석한 후 질문을 받았습니다. 하지만 자세히 들여다보면 첫인상과 상반되는 매혹적인 뉘앙스가 드러난다.

작성자는 정확성을 위해 코드를 실행하거나 확인하지 않았습니다. 그들의 평가는 전적으로 Python 코드로서의 유효성에 기반했습니다. 또한 모델은 의도치 않게 코드 실행을 방해하는 데코레이터를 사용하여 특정 코드 프레이밍 기술을 학습한 것으로 보입니다.

결과적으로 결과나 실험 자체가 모델 열화의 증거로 간주될 수 없음이 명백해집니다. 대신, 모델은 응답을 생성하는 다른 접근 방식을 보여 주며 잠재적으로 교육의 변형을 반영합니다.

프로그래밍 및 수학 능력을 시험합니다. GPT-4 및 ChatGPT 흥미로운 사실을 밝혀냈습니다. 초기 가정과 달리 모델은 특정 영역에서 눈에 띄는 개선을 보여 주었고 다른 영역에서는 행동 변화를 보여주었습니다.

프로그래밍 작업의 경우 두 모델 모두 "잘못된" 프롬프트에 대한 응답이 감소한 것으로 나타났습니다. GPT-4 그러한 경우에는 XNUMX배 이상의 감소를 나타냅니다. 또한 시각적 추론 작업에서 두 ​​모델 모두 응답 품질이 몇 퍼센트 포인트 향상되었습니다. 이러한 관찰은 성능 저하보다는 진행 상황을 나타냅니다.

그러나 수학적 능력의 평가는 흥미로운 요소를 도입합니다. 모델은 일관된 "예" 응답을 나타내는 답변으로 소수를 일관되게 제공했습니다. 그러나 샘플에 합성 숫자를 도입하자 모델이 동작을 바꾸고 "아니오" 응답을 제공하기 시작하여 품질 저하보다는 불확실성을 시사한다는 것이 명백해졌습니다. 시험 자체가 특이하고 일방적이다., 그 결과는 품질 저하가 아니라 모델 동작의 변화에 ​​기인할 수 있습니다.

브라우저 기반 버전이 아니라 API 버전이 테스트되었다는 점에 유의해야 합니다. 리소스를 최적화하기 위해 브라우저의 모델이 조정되었을 가능성이 있지만 첨부된 연구는 그렇지 않습니다. defi이 가설을 확실하게 증명해 보세요. 이러한 변화의 영향은 실제 모델 다운그레이드와 유사할 수 있으며, 이는 특정 작업에 의존하는 사용자에게 잠재적인 문제를 야기할 수 있습니다. 프롬프트 그리고 축적된 경험.

의 경우 GPT-4 API 애플리케이션에서 이러한 동작 편차는 실질적인 결과를 초래할 수 있습니다. 특정 사용자의 요구와 작업을 기반으로 개발된 코드는 모델의 동작이 변경되면 더 이상 의도한 대로 작동하지 않을 수 있습니다.

사용자가 유사한 테스트 사례를 작업 흐름에 통합하는 것이 좋습니다. 일련의 프롬프트, 수반되는 텍스트 및 예상 결과를 생성함으로써 사용자는 자신의 기대와 모델의 응답 사이의 일관성을 정기적으로 확인할 수 있습니다. 편차가 감지되는 즉시 적절한 조치를 취해 상황을 바로잡을 수 있습니다.

AI에 대해 자세히 알아보기:

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

더 많은 기사
다미르 얄랄로프
다미르 얄랄로프

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

Hot Stories
뉴스레터에 가입하세요.
최신 뉴스

변동성 속에서 비트코인 ​​ETF를 향한 기관의 선호도 증가

13F 서류를 통한 공개를 통해 주목할만한 기관 투자자들이 비트코인 ​​ETF에 손을 대고 있음이 드러났으며, 이는 비트코인 ​​ETF에 대한 수용이 증가하고 있음을 강조합니다.

현장 사진

선고일이 다가왔습니다: 미국 법원이 DOJ의 주장을 고려함에 따라 CZ의 운명이 균형을 이루고 있습니다.

자오창펑(Changpeng Zhao)은 오늘 시애틀의 미국 법원에서 선고를 받을 예정이다.

현장 사진
혁신적인 기술 커뮤니티에 참여하세요
상세 보기
자세히 보기
Nexo는 생태계 참여에 대해 사용자에게 12만 달러의 NEXO 토큰을 보상하기 위해 'The Hunt'를 시작합니다.
시장 뉴스 보도 Technology
Nexo는 생태계 참여에 대해 사용자에게 12만 달러의 NEXO 토큰을 보상하기 위해 'The Hunt'를 시작합니다.
2024 년 5 월 8 일
Revolut의 Revolut X Exchange는 제로 메이커 수수료 및 고급 분석으로 암호화폐 거래자를 우대합니다.
시장 소프트웨어 이야기와 리뷰 Technology
Revolut의 Revolut X Exchange는 제로 메이커 수수료 및 고급 분석으로 암호화폐 거래자를 우대합니다.
2024 년 5 월 8 일
암호화폐 거래 플랫폼 BitMEX, 수수료가 없고 현금 인센티브가 없는 옵션 거래 출시
근무지에서 발생 시장 뉴스 보도
암호화폐 거래 플랫폼 BitMEX, 수수료가 없고 현금 인센티브가 없는 옵션 거래 출시
2024 년 5 월 8 일
Lisk는 공식적으로 Ethereum Layer 2로 전환하고 Core v4.0.6을 공개합니다.
뉴스 보도 Technology
Lisk는 공식적으로 Ethereum Layer 2로 전환하고 Core v4.0.6을 공개합니다.
2024 년 5 월 8 일
CRYPTOMERIA LABS PTE. LTD.