뉴스 보도 Technology
2023 년 9 월 12 일

FLM-101B: 최고의 AI 모델과 경쟁하는 비용 효율적인 101B 규모 언어 모델

요컨대

중국 LLM인 LM-101B는 $100의 예산으로 훈련할 수 있으며 다음과 같은 잘 알려진 모델과 비슷한 성능을 달성합니다. GPT-3 그리고 GLM-130B.

중국 연구자들이 새로운 LLM을 공개했습니다. FLM-101B, 놀라운 101억 개의 매개변수를 자랑하는 디코더 전용 LLM입니다. 이 개발은 연구 및 실제 적용 모두에 비용 효율적인 대안을 제공합니다.

FLM-101B: 최고의 AI 모델과 경쟁하는 매우 비용 효율적인 101B 규모 언어 모델
관련 : AI 모델 교육 비용은 100년까지 500억 달러에서 2030억 달러로 증가할 것으로 예상됩니다.

FLM-101B가 눈에 띄는 이유는 상대적으로 적당한 예산으로 뛰어난 성능을 달성했다는 점입니다. 처음부터 LLM을 교육하려면 천문학적인 투자가 필요할 수 있다는 것은 잘 알려져 있지만 FLM-101B 제작자는 단 101만 달러의 예산을 사용하여 100억 개의 매개변수가 있는 모델을 교육하는 것이 가능하다는 것을 보여주었습니다.

실험 결과는 인상적이지 않습니다. FLM-101B는 기존 및 리소스 집약적 성능 수준과 비교할 수 있는 성능 수준을 입증했습니다. 같은 모델 GPT-3 그리고 GLM-130B. 이 비교는 특히 훈련 데이터에 존재하지 않는 복잡한 맥락을 가진 IQ 벤치마크에서 이 비용 효율적인 모델의 엄청난 잠재력을 강조합니다.

FLM-101B 제작자는 AI 연구 및 개발 발전에 대한 의지를 강조하기 위해 이 모델을 오픈 소스로 만들었습니다. 이제 전 세계 연구원과 개발자는 중국어와 영어를 모두 아우르는 다양한 응용 프로그램에 대해 이 101B 규모의 LLM에 액세스하고 활용할 수 있습니다.

FLM-101B 모델은 독특한 훈련 접근 방식을 사용합니다. 훈련 초기 단계에서 더 작은 16억 개의 매개변수 모델로부터 지식을 빠르게 축적하고 점진적으로 최대 101억 개의 매개변수까지 확장합니다. 이러한 점진적인 접근 방식은 교육 비용을 크게 줄여 보다 광범위한 프로젝트에서 재정적으로 실현 가능하게 만듭니다.

FLM-101B의 뛰어난 기능 중 하나는 추론 중에 효율적인 창 크기 확장을 지원한다는 것입니다. 이는 xPos 회전 위치 임베딩을 사용하여 달성되므로 모델이 더 넓은 상황을 처리하고 적응성과 유용성을 향상시킬 수 있습니다.

FLM-101B는 24일 이내에 800개의 DGX-A26 GPU 서버 클러스터에서 훈련되었습니다. 이 인상적인 성과는 모델의 확장성과 효율적인 리소스 활용을 강조합니다. Megatron-LM에서 채택된 모델의 훈련 코드베이스는 곧 오픈 소스로 제공되어 AI 커뮤니티에 귀중한 통찰력을 제공할 예정입니다.

FLM-101B 작성자는 데이터 세트의 개방형 특성으로 인해 모델이 훈련 코퍼스의 안전하지 않은 예에 노출되는 것을 포함하여 잠재적인 한계를 인정합니다. 이 경고는 책임감 있는 AI 사용의 중요성을 일깨워주는 역할을 하며 콘텐츠 검토.

FLM-101B는 놀라운 결과를 달성했지만 제작자는 개선이 필요한 부분을 인정합니다. 모델의 추론 프로세스는 강력하지만 아직 완전히 최적화되지 않았으므로 리소스 사용량이 늘어나고 속도가 느려집니다. 그러나 이러한 제한을 해결하기 위해 추론에 Flash Attention을 도입하려는 계획이 진행 중입니다.

AI에 대해 자세히 알아보기:

책임 부인

줄 안 트러스트 프로젝트 지침, 이 페이지에 제공된 정보는 법률, 세금, 투자, 재정 또는 기타 형태의 조언을 제공하기 위한 것이 아니며 해석되어서도 안 됩니다. 손실을 감수할 수 있는 만큼만 투자하고 의심스러운 경우 독립적인 재정 조언을 구하는 것이 중요합니다. 자세한 내용은 이용약관은 물론 발행자나 광고주가 제공하는 도움말 및 지원 페이지를 참조하시기 바랍니다. MetaversePost 는 정확하고 편견 없는 보고를 위해 최선을 다하고 있지만 시장 상황은 예고 없이 변경될 수 있습니다.

저자에 관하여

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

더 많은 기사
다미르 얄랄로프
다미르 얄랄로프

Damir는 팀 리더, 제품 관리자 및 편집자입니다. Metaverse Post, AI/ML, AGI, LLM, Metaverse 및 Web3-관련 분야. 그의 기사는 매달 백만 명이 넘는 사용자의 엄청난 청중을 끌어들입니다. 그는 SEO 및 디지털 마케팅 분야에서 10년의 경험을 가진 전문가로 보입니다. Damir는 Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto 및 기타 간행물. UAE, 터키, 러시아, CIS를 오가며 디지털 유목민으로 활동하고 있습니다. Damir는 끊임없이 변화하는 인터넷 환경에서 성공하는 데 필요한 비판적 사고 기술을 제공했다고 믿는 물리학 학사 학위를 받았습니다. 

Hot Stories
뉴스레터에 가입하세요.
최신 뉴스

변동성 속에서 비트코인 ​​ETF를 향한 기관의 선호도 증가

13F 서류를 통한 공개를 통해 주목할만한 기관 투자자들이 비트코인 ​​ETF에 손을 대고 있음이 드러났으며, 이는 비트코인 ​​ETF에 대한 수용이 증가하고 있음을 강조합니다.

현장 사진

선고일이 다가왔습니다: 미국 법원이 DOJ의 주장을 고려함에 따라 CZ의 운명이 균형을 이루고 있습니다.

자오창펑(Changpeng Zhao)은 오늘 시애틀의 미국 법원에서 선고를 받을 예정이다.

현장 사진
혁신적인 기술 커뮤니티에 참여하세요
상세 보기
자세히 보기
Nexo는 생태계 참여에 대해 사용자에게 12만 달러의 NEXO 토큰을 보상하기 위해 'The Hunt'를 시작합니다.
시장 뉴스 보도 Technology
Nexo는 생태계 참여에 대해 사용자에게 12만 달러의 NEXO 토큰을 보상하기 위해 'The Hunt'를 시작합니다.
2024 년 5 월 8 일
Revolut의 Revolut X Exchange는 제로 메이커 수수료 및 고급 분석으로 암호화폐 거래자를 우대합니다.
시장 소프트웨어 이야기와 리뷰 Technology
Revolut의 Revolut X Exchange는 제로 메이커 수수료 및 고급 분석으로 암호화폐 거래자를 우대합니다.
2024 년 5 월 8 일
암호화폐 거래 플랫폼 BitMEX, 수수료가 없고 현금 인센티브가 없는 옵션 거래 출시
근무지에서 발생 시장 뉴스 보도
암호화폐 거래 플랫폼 BitMEX, 수수료가 없고 현금 인센티브가 없는 옵션 거래 출시
2024 년 5 월 8 일
Lisk는 공식적으로 Ethereum Layer 2로 전환하고 Core v4.0.6을 공개합니다.
뉴스 보도 Technology
Lisk는 공식적으로 Ethereum Layer 2로 전환하고 Core v4.0.6을 공개합니다.
2024 년 5 월 8 일
CRYPTOMERIA LABS PTE. LTD.