Báo cáo tin tức Công nghệ
Ngày 12 tháng 2023 năm XNUMX

FLM-101B: Mô hình ngôn ngữ quy mô 101B siêu hiệu quả về chi phí cạnh tranh với các mô hình AI hàng đầu

Tóm lại

LLM của Trung Quốc, LM-101B, có thể được đào tạo với ngân sách 100 nghìn USD, đạt được hiệu suất tương đương với các mẫu nổi tiếng như GPT-3 và GLM-130B.

Các nhà nghiên cứu Trung Quốc đã tiết lộ một LLM mới, FLM-101B, một LLM chỉ dành cho bộ giải mã có 101 tỷ thông số đáng chú ý. Sự phát triển này cung cấp một giải pháp thay thế hiệu quả về mặt chi phí cho cả nghiên cứu và ứng dụng thực tế.

FLM-101B: Mô hình ngôn ngữ quy mô 101B siêu tiết kiệm chi phí cạnh tranh với các mô hình AI hàng đầu
Liên quan: Chi phí đào tạo mô hình AI dự kiến ​​sẽ tăng từ 100 triệu đô la lên 500 triệu đô la vào năm 2030

Điều khiến FLM-101B nổi bật là hiệu suất vượt trội của nó đạt được với ngân sách tương đối khiêm tốn. Mặc dù ai cũng biết rằng việc đào tạo LLM từ đầu có thể yêu cầu đầu tư lớn, nhưng những người tạo ra FLM-101B đã chỉ ra rằng có thể đào tạo một mô hình với 101 tỷ tham số chỉ với ngân sách 100 nghìn đô la.

Kết quả thử nghiệm không có gì đáng ngạc nhiên. FLM-101B đã chứng minh mức hiệu suất tương đương với các thiết bị đã được thiết lập và sử dụng nhiều tài nguyên. mô hình như GPT-3 và GLM-130B. Sự so sánh này nêu bật tiềm năng to lớn của mô hình tiết kiệm chi phí này, đặc biệt là về điểm chuẩn IQ với bối cảnh phức tạp không có trong dữ liệu đào tạo.

Trong một động thái nhấn mạnh cam kết của họ trong việc thúc đẩy nghiên cứu và phát triển AI, những người tạo ra FLM-101B đã biến mô hình này thành nguồn mở. Các nhà nghiên cứu và nhà phát triển trên toàn thế giới hiện có thể truy cập và tận dụng LLM quy mô 101B này cho nhiều ứng dụng khác nhau, trải rộng cả tiếng Trung và tiếng Anh.

Model FLM-101B sử dụng phương pháp đào tạo độc đáo. Nó nhanh chóng tích lũy kiến ​​thức từ mô hình 16 tỷ tham số nhỏ hơn trong giai đoạn đào tạo ban đầu và dần dần mở rộng quy mô lên tới 101 tỷ tham số. Cách tiếp cận gia tăng này giúp giảm đáng kể chi phí đào tạo, khiến nó trở nên khả thi về mặt tài chính cho nhiều dự án hơn.

Một tính năng nổi bật của FLM-101B là hỗ trợ mở rộng kích thước cửa sổ hiệu quả trong quá trình suy luận. Điều này đạt được thông qua việc sử dụng tính năng nhúng vị trí quay xPos, cho phép mô hình xử lý bối cảnh rộng hơn, nâng cao khả năng thích ứng và khả năng sử dụng của nó.

FLM-101B được đào tạo trên cụm 24 máy chủ GPU DGX-A800 trong vòng chưa đầy 26 ngày. Thành tích ấn tượng này nhấn mạnh khả năng mở rộng và sử dụng tài nguyên hiệu quả của mô hình. Cơ sở mã đào tạo của mô hình, được điều chỉnh từ Megatron-LM, sẽ sớm có sẵn dưới dạng nguồn mở, cung cấp những hiểu biết sâu sắc có giá trị cho cộng đồng AI.

Những người tạo ra FLM-101B thừa nhận những hạn chế tiềm ẩn, bao gồm cả việc mô hình tiếp xúc với các ví dụ không an toàn trong kho dữ liệu đào tạo do tính chất mở của tập dữ liệu. Thông báo trước này đóng vai trò như một lời nhắc nhở về tầm quan trọng của việc sử dụng AI có trách nhiệm và kiểm duyệt nội dung.

Mặc dù FLM-101B đã đạt được những kết quả đáng chú ý nhưng những người sáng tạo vẫn thừa nhận các lĩnh vực cần cải thiện. Quá trình suy luận của mô hình tuy mạnh mẽ nhưng vẫn chưa được tối ưu hóa hoàn toàn, dẫn đến mức sử dụng tài nguyên cao hơn và tốc độ giảm. Tuy nhiên, các kế hoạch đang được tiến hành để đưa Flash Chú ý vào suy luận nhằm giải quyết hạn chế này.

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories
Tham gia bản tin của chúng tôi.
Tin mới nhất

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
BLOCKCHANCE và CONF3RENCE hợp nhất cho sự kiện lớn nhất nước Đức Web3 Hội nghị ở Dortmund
Kinh doanh thị trường Phần mềm Câu chuyện và đánh giá Công nghệ
BLOCKCHANCE và CONF3RENCE hợp nhất cho sự kiện lớn nhất nước Đức Web3 Hội nghị ở Dortmund
9 Tháng Năm, 2024
NuLink ra mắt trên Bybit Web3 Nền tảng IDO. Giai đoạn đăng ký kéo dài đến ngày 13 tháng XNUMX
thị trường Báo cáo tin tức Công nghệ
NuLink ra mắt trên Bybit Web3 Nền tảng IDO. Giai đoạn đăng ký kéo dài đến ngày 13 tháng XNUMX
9 Tháng Năm, 2024
UXLINK và Binance hợp tác trong chiến dịch mới, mang đến cho người dùng 20 triệu điểm UXUY và Airdrop Thưởng
thị trường Báo cáo tin tức Công nghệ
UXLINK và Binance hợp tác trong chiến dịch mới, mang đến cho người dùng 20 triệu điểm UXUY và Airdrop Thưởng
9 Tháng Năm, 2024
Side Protocol ra mắt Testnet được khuyến khích và giới thiệu hệ thống điểm nội bộ, cho phép người dùng kiếm điểm SIDE
thị trường Báo cáo tin tức Công nghệ
Side Protocol ra mắt Testnet được khuyến khích và giới thiệu hệ thống điểm nội bộ, cho phép người dùng kiếm điểm SIDE
9 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH