의견 Technology
2023 년 8 월 23 일

연구자들은 대규모 언어 모델의 '신흥 능력'이라는 개념에 도전합니다.

요컨대

갑자기 대형 언어 모델이 등장하는 현상으로 인해 AGI 종말이 우려된다. 능력을 발휘하다 더 작은 모델에는없는 것 같습니다.

이러한 현상을 "대형 언어 모델의 새로운 능력"이라고 합니다.

"대형 언어 모델의 새로운 능력은 신기루인가?"라는 기사의 저자 새로운 능력의 효과는 신기루가 아니라 오히려 과제 수행 능력의 예측 가능한 성장이라고 주장합니다.

그들은 Big Bench 문제의 92% 이상이 대형 모델의 경우 갑작스러운 돌파구를 갖지 않으며 모델의 크기가 증가함에 따라 모델의 품질이 원활하고 예측 가능하게 향상된다는 것을 보여줍니다.

대규모 언어 모델의 잠재적 기능에 대한 최근 조사에서 연구자들은 "신흥 능력"이라는 개념에 도전하고 해당 기능의 보다 예측 가능한 측면을 밝혀냈습니다. "라는 제목의 기사대규모 언어 모델의 새로운 능력의 현실 공개”는 이러한 모델이 자발적으로 고급 기술을 습득한다는 오해로 이어진 측정항목의 잘못된 해석에 주목합니다.

연구자들은 대규모 언어 모델의 '신흥 능력'이라는 개념에 도전합니다.
신용 : Metaverse Post / Stable Diffusion

"의 개념새로운 능력"와 같은 대규모 언어 모델의 맥락에서 GPT 시리즈는 이러한 모델이 인간의 의식과 유사한 예상치 못한 능력을 개발할 가능성에 대한 우려를 불러일으켰습니다. 이 문서에서는 이러한 가정이 모델의 실제 동작과 기능에 대한 잘못된 이해에 기반을 두고 있다고 주장합니다.

더 큰 모델이 추상적 추론, 문제 해결, 심지어 유머와 같은 새로운 능력을 획득하는 것처럼 보이는 일반적으로 관찰되는 현상을 "대형 언어 모델의 새로운 능력"이라고 부릅니다. 기사의 저자는 이러한 능력이 보이는 것만큼 자발적인 것이 아니라 오해의 소지가 있는 평가 지표의 결과라고 주장합니다.

그들의 요점을 설명하기 위해 연구자들은 언어 모델이 자연어 수수께끼를 이해하고 자연어로 정답으로 응답하는 데 필요한 문제인 "수수께끼 추측" 작업을 고려합니다. 전통적으로 응답의 품질은 이진 측정법을 사용하여 평가되었습니다. 즉, 정답과 정확히 일치하면 응답에 1점을 할당하고 그렇지 않으면 0점을 부여합니다.

문제의 핵심은 작업의 복잡성과 모델 매개변수 수에 대한 측정항목의 민감도에 있습니다. 연구자들은 이 이진 측정법이 다음과 같은 결과를 가져온다는 사실을 밝혔습니다. 기만적인 인식 "신흥 능력"에 관한 것입니다. 더 작은 모델은 종종 이 지표에 대해 무시할 수 있는 정확도(eps)를 나타내는 반면, 더 큰 모델, 특히 매개변수 수가 많은 모델은 놀라운 정확도 수준(acc > 0.5)을 달성하는 것으로 보입니다.

기사에서는 이러한 명백한 능력 변화가 모델이 자발적으로 복잡한 기술을 습득했음을 나타내는 것은 아니라고 주장합니다. 대신, 보다 미묘한 반응을 이해하고 생성하는 모델의 능력은 출력에 대한 보다 세심한 평가에서 비롯됩니다. 정확한 문자열 일치보다는 확률적 일치와 의미론적 일관성에 초점을 맞춤으로써 연구자들은 다음과 같은 사실을 보여줍니다. 모델의 발전 성능은 크기에 관계없이 보다 논리적인 궤적을 따릅니다.

관련: T9시대 챗봇의 진화와 GPT-1 에 ChatGPT

매개변수 변경을 통한 모델 성능 변화 조사

매개변수 변경을 통한 모델 성능 변화 조사
신용 : Metaverse Post / Stable Diffusion

분석 조사에서 연구자들은 인식된 "신발 능력" 뒤에 숨은 미묘한 메커니즘을 밝혀냅니다. 큰 언어 모델. 이 연구는 모델 성능 평가에서 초이산 측정항목의 영향에 대해 의문을 제기하고 모델 매개변수가 확장됨에 따라 해당 기능에 대한 보다 예측 가능한 이해를 명료하게 설명합니다.

확장된 언어 모델에서 "신흥 능력"이라는 지배적인 개념은 토론을 사로잡았고 잠재적인 돌파구에 대한 우려를 불러일으켰습니다. 본 연구에서는 이 현상의 근간을 이루는 메커니즘을 풀고 이러한 모델이 실제로 갑작스럽고 전례 없는 기능을 발휘하는지, 아니면 이러한 인지된 발전이 다른 원인에 기인할 수 있는지 해독하려고 합니다.

연구의 핵심은 모델 성능을 측정하는 데 사용되는 측정항목을 면밀히 평가하는 것입니다. 연구자들은 초이산 측정법, 특히 정확한 문자열 일치를 결정하는 기존의 이진 측정법을 사용하면 대규모 해석이 왜곡될 수 있다고 주장합니다. 언어 모델 능력. 이 연구에서는 모델 매개변수 규모가 커짐에 따라 모델 생성 답변의 확률 분포가 어떻게 변화하는지 꼼꼼하게 분석합니다.

이 연구에서는 '신흥 능력'이라는 개념과 달리 보다 체계적인 추세를 보여줍니다. 모델의 크기가 커짐에 따라 적절한 답변에 더 높은 확률을 할당하고 잘못된 답변에 더 낮은 확률을 할당하는 기능이 향상됩니다. 이는 다양한 크기에 걸쳐 문제를 적절하게 해결하는 모델의 능력이 지속적으로 향상되었음을 반영합니다. 본질적으로, 연구는 모델의 학습 과정이 다음과 같은 잘 따른다는 것을 시사합니다.defi급격한 도약보다는 개선의 궤적을 제시했다.

저자는 이산형 측정항목을 연속형 측정항목으로 대체함으로써 패러다임 전환을 소개합니다. 이러한 변화는 성능 발전에 대한 보다 명확한 그림을 제공합니다. 분석을 통해 연구자들은 약 92%의 빅 벤치 문제 모델 크기가 확장됨에 따라 품질이 원활하고 예측 가능하게 증가합니다. 이번 발견은 더 큰 모델이 갑작스러운 혁신을 경험하고 그 대신 보다 점진적이고 예상되는 발전을 강조한다는 개념에 도전합니다.

이 연구는 주장을 검증하기 위해 통찰력을 확장합니다. 이는 동일한 "신발 능력" 효과가 기존 오토인코더를 사용하여 인위적으로 시뮬레이션될 수 있음을 보여 주며, 측정항목의 선택이 인지된 결과에 상당한 영향을 미친다는 것을 시사합니다. 이 계시는 연구의 의미 범위를 넓혀 언어 모델을 넘어서는 관련성을 보여줍니다.

연구자들은 그들의 결과가 그렇지 않다고 강조한다. defi대규모 언어 모델에서 "새로운 능력"이나 의식의 가능성을 근본적으로 부정합니다. 그러나 그들의 연구 결과는 연구자들이 미묘한 관점으로 그러한 주장에 접근하도록 장려합니다. 성급하게 추정하고 극단적인 결론을 내리기보다는 면밀한 조사와 종합적인 분석의 중요성을 강조한다.

AI에 대해 자세히 알아보기:

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

더 많은 기사
다미르 얄랄로프
다미르 얄랄로프

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

Hot Stories
뉴스레터에 가입하세요.
최신 뉴스

변동성 속에서 비트코인 ​​ETF를 향한 기관의 선호도 증가

13F 서류를 통한 공개를 통해 주목할만한 기관 투자자들이 비트코인 ​​ETF에 손을 대고 있음이 드러났으며, 이는 비트코인 ​​ETF에 대한 수용이 증가하고 있음을 강조합니다.

현장 사진

선고일이 다가왔습니다: 미국 법원이 DOJ의 주장을 고려함에 따라 CZ의 운명이 균형을 이루고 있습니다.

자오창펑(Changpeng Zhao)은 오늘 시애틀의 미국 법원에서 선고를 받을 예정이다.

현장 사진
혁신적인 기술 커뮤니티에 참여하세요
상세 보기
자세히 보기
Nexo는 생태계 참여에 대해 사용자에게 12만 달러의 NEXO 토큰을 보상하기 위해 'The Hunt'를 시작합니다.
시장 뉴스 보도 Technology
Nexo는 생태계 참여에 대해 사용자에게 12만 달러의 NEXO 토큰을 보상하기 위해 'The Hunt'를 시작합니다.
2024 년 5 월 8 일
Revolut의 Revolut X Exchange는 제로 메이커 수수료 및 고급 분석으로 암호화폐 거래자를 우대합니다.
시장 소프트웨어 이야기와 리뷰 Technology
Revolut의 Revolut X Exchange는 제로 메이커 수수료 및 고급 분석으로 암호화폐 거래자를 우대합니다.
2024 년 5 월 8 일
Lisk는 공식적으로 Ethereum Layer 2로 전환하고 Core v4.0.6을 공개합니다.
뉴스 보도 Technology
Lisk는 공식적으로 Ethereum Layer 2로 전환하고 Core v4.0.6을 공개합니다.
2024 년 5 월 8 일
2024년 7월의 새로운 Meme 코인: 암호화폐 팬을 위한 XNUMX가지 추천
요람 시장 Technology
2024년 7월의 새로운 Meme 코인: 암호화폐 팬을 위한 XNUMX가지 추천
2024 년 5 월 8 일
CRYPTOMERIA LABS PTE. LTD.