2023 년 7 월 11 일

GPT-4유출된 세부 정보는 대규모 규모와 인상적인 건축물을 조명합니다.

게시: 11년 2023월 7일 오전 19:11 업데이트: 2023년 7월 23일 오전 XNUMX:XNUMX

수정 및 사실 확인 날짜: 11년 2023월 7일 오전 19시 XNUMX분

요컨대

유출된 정보는 GPT-4 AI 커뮤니티에 흥분을 불러일으켰습니다. 이전 모델보다 10배 이상의 매개변수를 갖춘 GPT-3, GPT-4 1.8개 레이어에 걸쳐 120조 XNUMX천억 개의 매개변수가 분산되어 있는 것으로 추정됩니다.

OpenAI 다층 퍼셉트론(MLP)에 대해 16억 개의 매개변수를 가진 111명의 전문가를 활용하여 전문가 혼합(MoE) 모델을 구현했습니다. 모델의 효율적인 추론 프로세스는 순방향 패스당 280억 개의 매개변수와 560 TFLOP를 활용하여 OpenAI효율성과 비용 효율성을 극대화하기 위한 의 노력. 모델의 교육 데이터 세트에는 13k에서 8k로 미세 조정된 32조 개의 토큰이 포함됩니다.

OpenAI 병렬성을 활용한 GPT-4 100방향 텐서 병렬성과 8방향 파이프라인 병렬성을 사용하여 A15 GPU의 잠재력을 최대한 활용합니다. 교육 과정은 광범위하고 자원 집약적이며 비용은 32만 달러에서 63만 달러에 이릅니다.

GPT-4의 추론 비용은 이전 버전보다 약 128배 높지만 다중 쿼리 주의, 연속 일괄 처리 및 추측 디코딩도 통합합니다. 추론 아키텍처는 여러 데이터 센터에 분산된 XNUMX개의 GPU 클러스터에서 작동합니다.

최근 주변 정보 유출 GPT-4 AI 커뮤니티를 통해 충격파를 보냈습니다. 공개되지 않은 출처에서 얻은 유출된 정보를 통해 이 획기적인 모델의 경외심을 불러일으키는 기능과 전례 없는 규모를 엿볼 수 있습니다. 우리는 사실을 분석하고 주요 측면을 밝힐 것입니다. GPT-4 진정한 기술적 경이로움.

GPT-4유출된 세부 정보로 대규모 규모와 인상적인 건축물이 밝혀졌습니다. — 신용 : Metaverse Post (mpost.io)

GPT-4의 대규모 매개변수 개수

유출로 인해 밝혀진 가장 놀라운 사실 중 하나는 엄청난 규모입니다. GPT-4. 전작보다 10배가 넘는 놀라운 크기를 자랑하며, GPT-3. 총합은 1.8정도로 추정됩니다. 조 매개변수 인상적인 120개의 레이어에 걸쳐 분산되어 있습니다. 이러한 규모의 상당한 증가는 의심할 여지 없이 GPT-4의 향상된 기능 그리고 획기적인 발전 가능성.

전문가 혼합 모델(MoE)

탁월한 성능을 유지하면서 합리적인 비용을 보장하기 위해, OpenAI 전문가 혼합(MoE) 모델을 구현했습니다. GPT-4. 다층 퍼셉트론(MLP)에 대한 약 16억 개의 매개변수로 구성된 모델 내 전문가 111명을 활용하여, OpenAI 효과적으로 최적화된 리소스 할당. 특히 각 순방향 패스 동안 두 명의 전문가만 라우팅되어 결과를 손상시키지 않고 계산 요구 사항을 최소화합니다. 이 혁신적인 접근 방식은 OpenAI모델의 효율성과 비용 효율성을 극대화하려는 의 노력입니다.

매우 흥미롭고 상세한 유출 GPT-4 그 뒤에 있는 추론과 그 의미에 대한 탁월한 분석을 통해 아키텍처 @dylan522p :https://t.co/eHE7VlGY5V

유료화되지 않은 요약은 여기에서 찾을 수 있습니다. https://t.co/rLxw5s9ZDt
— 잰 P. 해리스(@jphme) 2023 년 7 월 11 일

간소화된 MoE 라우팅 알고리즘

모델은 종종 각 토큰을 처리할 전문가를 선택하기 위한 고급 라우팅 알고리즘을 탐색하지만, OpenAI현재 의 접근 방식 GPT-4 모델이 더 간단하다고 합니다. AI가 사용하는 라우팅 알고리즘은 상대적으로 단순하지만 그럼에도 불구하고 효과적이라고 합니다. 관심을 위한 약 55억 개의 공유 매개변수는 모델 내의 적절한 전문가에게 토큰을 효율적으로 배포하는 것을 촉진합니다.

효율적인 추론

GPT-4의 추론 프로세스는 효율성과 계산 능력을 보여줍니다. 단일 토큰 생성에 전념하는 각 정방향 패스는 약 280억 개의 매개변수와 560 TFLOP(초당 테라 부동 소수점 연산)를 활용합니다. 이는 엄청난 규모와는 극명한 대조를 이룬다. GPT-4, 순수 밀도 모델에서 1.8조 3,700천억 개의 매개변수와 정방향 패스당 XNUMX TFLOP를 사용합니다. 자원의 효율적인 사용이 강조됩니다. OpenAI과도한 계산 요구 사항 없이 최적의 성능을 달성하기 위한 의 헌신.

광범위한 교육 데이터 세트

GPT-4 약 13조 개의 토큰으로 구성된 거대한 데이터 세트에 대해 교육을 받았습니다. 이러한 토큰에는 고유 토큰과 시대 번호를 설명하는 토큰이 모두 포함된다는 점에 유의하는 것이 중요합니다. 그만큼 훈련 과정 텍스트 기반 데이터를 위한 XNUMX개의 에포크와 코드 기반 데이터를 위한 XNUMX개의 에포크를 포함합니다. OpenAI ScaleAI에서 가져온 수백만 행의 명령 미세 조정 데이터를 내부적으로 활용하여 모델의 성능을 개선했습니다.

사전 훈련 단계 GPT-4 8k 컨텍스트 길이를 사용했습니다. 그 후 모델은 미세 조정을 거쳐 32k 버전이 탄생했습니다. 이 진행은 사전 훈련 단계를 기반으로 구축되어 모델의 기능을 향상시키고 특정 작업에 맞게 조정합니다.

병렬 처리를 통해 GPU로 확장

OpenAI 병렬성의 힘을 활용했습니다. GPT-4 A100 GPU의 잠재력을 최대한 활용합니다. 그들은 NVLink의 한계인 병렬 처리를 최대화하는 8방향 텐서 병렬성을 사용했습니다. 또한 성능을 더욱 향상시키기 위해 15방향 파이프라인 병렬 처리가 활용되었습니다. ZeRo Stage 1과 같은 특정 기술이 사용되었을 가능성이 높지만 정확한 방법은 아직 공개되지 않았습니다.

교육 비용 및 활용 문제

트레이닝 GPT-4 이는 광범위하고 자원 집약적인 노력이었습니다. OpenAI 25,000~100일 동안 약 90개의 A100 GPU가 할당되었으며, 약 32%~36% MFU(가장 자주 사용됨)의 활용률로 작동했습니다. 교육 과정에서 수많은 실패가 발생하여 체크포인트에서 자주 다시 시작해야 했습니다. A1시간당 100달러로 추산하면 교육 비용 이 실행만으로도 약 63만 달러에 달할 것입니다.

전문가 혼합의 장단점

전문가 혼합 모델을 구현하면 몇 가지 장단점이 있습니다. 의 경우 GPT-4, OpenAI 더 높은 숫자 대신 16명의 전문가를 선택했습니다. 이 결정은 우수한 손실 결과를 달성하는 것과 다양한 작업에서 일반화 가능성을 보장하는 것 사이의 균형을 반영합니다. 더 많은 전문가가 작업 일반화 및 수렴 측면에서 문제를 제시할 수 있습니다. OpenAI의 운동 선택 전문가의 주의 선택은 안정적이고 강력한 성능에 대한 약속과 일치합니다.

추론 비용

이전 모델인 175억 매개변수의 다빈치 모델과 비교하면, GPT-4의 추론 비용은 약 XNUMX배 더 높습니다. 이러한 불일치는 지원에 필요한 더 큰 클러스터를 포함하여 여러 요인으로 인해 발생할 수 있습니다. GPT-4 추론 중에 활용도가 낮아졌습니다. 추론 시 추정 비용은 A0.0049 GPU 1,000개에 대해 토큰 128개당 대략 $100센트, H0.0021 GPU 1,000개에 대해 토큰 128개당 $100센트로 나타납니다. GPT-4 8k로. 이 수치는 비용 최적화를 위한 중요한 고려 사항인 적절한 활용도와 높은 배치 크기를 가정합니다.

다중 쿼리 주의

OpenAI 현장에서 널리 사용되는 기술인 MQA(Multi-Query Attention)를 활용합니다. GPT-4 또한. MQA를 구현하면 모델에 헤드가 하나만 필요하므로 키-값 캐시(KV 캐시)에 필요한 메모리 용량이 크게 줄어듭니다. 이러한 최적화에도 불구하고 32k 배치는 GPT-4 40GB A100 GPU에서는 수용할 수 없으며 8k는 최대 배치 크기로 인해 제한됩니다.

연속 배치

대기 시간과 추론 비용 간의 균형을 맞추려면 OpenAI 가변 배치 크기와 연속 배치를 모두 통합합니다. GPT-4. 이러한 적응형 접근 방식을 통해 유연하고 효율적인 처리가 가능하고 리소스 활용도가 최적화되며 계산 오버헤드가 줄어듭니다.

GPT-4 텍스트 인코더와 함께 별도의 비전 인코더를 도입하여 둘 사이의 교차 주의 기능을 제공합니다. Flamingo를 연상시키는 이 아키텍처는 이미 인상적인 1.8조 XNUMX천억 개의 매개변수 수에 추가 매개변수를 추가합니다. GPT-4. 비전 모델은 텍스트 전용 사전 학습 단계 이후 약 2조 개의 토큰을 사용하여 별도의 미세 조정을 거칩니다. 이 비전 기능은 다음과 같은 이점을 제공합니다. 자율 에이전트 웹 페이지를 읽고, 이미지를 복사하고, 비디오 콘텐츠를 해석하는 것은 멀티미디어 데이터 시대의 귀중한 자산입니다.

투기적 디코딩

흥미로운 측면 GPT-4의 추론 전략은 추측적 디코딩의 사용이 가능하다는 것입니다. 이 접근 방식에는 더 작고 빠른 모델 미리 여러 토큰에 대한 예측을 생성합니다. 이러한 예측된 토큰은 단일 배치로 더 큰 "오라클" 모델에 공급됩니다. 더 작은 경우 모델의 예측 더 큰 모델의 계약에 따라 여러 토큰을 함께 디코딩할 수 있습니다. 그러나 더 큰 모델이 초안 모델에서 예측한 토큰을 거부하는 경우 배치의 나머지 부분은 폐기되고 추론은 더 큰 모델로만 계속됩니다. 이 접근 방식은 잠재적으로 더 낮은 확률 시퀀스를 수용하면서 효율적인 디코딩을 허용합니다. 이 추측이 현재 확인되지 않은 상태로 남아 있다는 점은 주목할 가치가 있습니다.

추론 아키텍처

GPT-4의 추론 프로세스는 서로 다른 위치에 있는 여러 데이터 센터에 분산된 128개의 GPU 클러스터에서 작동합니다. 이 인프라는 8방향 텐서 병렬성과 16방향 파이프라인 병렬성을 사용하여 계산 효율성을 극대화합니다. 8개의 GPU로 구성된 각 노드는 약 130억 개의 매개변수를 수용합니다. 모델 크기가 120개 레이어로, GPT-4 15개의 서로 다른 노드에 적합할 수 있으며, 임베딩을 계산해야 하기 때문에 첫 번째 노드에는 더 적은 수의 레이어가 있을 수 있습니다. 이러한 아키텍처 선택은 고성능 추론을 촉진하여 이를 입증합니다. OpenAI컴퓨팅 효율성의 경계를 넓히려는 의 노력입니다.

데이터 세트 크기 및 구성

GPT-4 13조 개의 인상적인 토큰에 대해 교육을 받아 학습할 수 있는 광범위한 텍스트 모음을 제공합니다. 그러나 훈련 중에 사용된 알려진 데이터 세트로 모든 토큰을 설명할 수 있는 것은 아닙니다. CommonCrawl 및 RefinedWeb과 같은 데이터세트가 훈련 데이터, 종종 "비밀" 데이터라고 하는 설명되지 않은 토큰의 일부가 남아 있습니다.

소문과 추측

이 미공개 데이터의 출처에 관한 추측이 나왔습니다. 한 소문에 따르면 여기에는 Twitter, Reddit, YouTube와 같은 인기 플랫폼의 콘텐츠가 포함되어 있어 사용자 제작 콘텐츠가 형성에 미치는 잠재적인 영향을 강조합니다. GPT-4님의 지식 기반입니다. 또한 수백만 권의 도서 저장소인 LibGen과 수많은 과학 논문에 대한 액세스를 제공하는 플랫폼인 Sci-Hub와 같은 광범위한 컬렉션을 포함한다는 추측이 있습니다. 그 개념은 GPT-4 GitHub 전체에 대한 교육이 AI 애호가들 사이에서도 유포되었습니다.

기자의 의견

많은 소문이 있지만 이러한 소문에 대해서는 신중하게 접근하는 것이 중요합니다. 훈련 GPT-4 대학 교과서로 구성된 특수 데이터세트를 활용하면 큰 이점을 얻을 수 있습니다. 광범위한 과정과 주제를 다루는 이 데이터 세트는 손으로 힘들게 조립할 수 있었습니다. 대학 교과서는 언어 모델을 훈련하는 데 성공적으로 사용할 수 있고 텍스트 파일로 쉽게 변환할 수 있는 체계적이고 포괄적인 지식 기반을 제공합니다. 그러한 데이터 세트를 포함하면 다음과 같은 인상을 줄 수 있습니다. GPT-4 다양한 분야에 대한 지식이 풍부합니다.

매혹 GPT-4님의 지식

흥미로운 측면 중 하나는 GPT-4의 훈련은 특정 책에 대한 친숙함을 보여주고 Project Euler와 같은 플랫폼의 고유 식별자를 기억하는 능력입니다. 연구자들은 책에서 기억된 부분을 추출하려고 시도했습니다. GPT-4 훈련에 대한 통찰력을 얻고 모델의 내부 작동에 대한 호기심을 더욱 불러일으킵니다. 이러한 발견은 놀라운 능력을 강조합니다. GPT-4 정보를 유지하고 대규모 언어 모델의 인상적인 기능을 강조합니다.

다재다능함 GPT-4

폭넓은 스펙트럼의 주제와 분야 GPT-4 다재다능함을 보여주는 것처럼 보입니다. 컴퓨터 과학의 복잡한 질문에 답하든, 철학적 논쟁을 탐구하든, GPT-4다양한 데이터 세트에 대한 의 교육을 통해 다양한 도메인의 사용자와 소통할 수 있습니다. 이러한 다양성은 광범위한 텍스트 리소스에 대한 노출에서 비롯되므로 광범위한 사용자에게 유용한 도구가 됩니다.

AI에 대해 자세히 알아보기:

태그 :

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다.

더 많은 기사

다미르 얄랄로프