thị trường Báo cáo tin tức
Tháng Tám 08, 2023

Alibaba giới thiệu mô hình ngôn ngữ Qwen-7B mã nguồn mở

Alibaba đã tiết lộ Mô hình ngôn ngữ lớn (LLM) mã nguồn mở có tên Qwen-7B, đánh dấu lần đầu tiên họ bước vào lĩnh vực LLM có thể truy cập công khai. Mô hình này được xây dựng dựa trên 7 tỷ tham số.

Alibaba giới thiệu mô hình ngôn ngữ Qwen-7B mã nguồn mở

Để so sánh, Qwen-7B đã trải qua quá trình huấn luyện sử dụng 2.2 nghìn tỷ token. Kích thước ngữ cảnh được đặt trong giai đoạn đào tạo này là 2048, trong khi người dùng có thể mở rộng kích thước này lên tối đa 8192 trong quá trình thử nghiệm. Bằng cách so sánh, Llama-2, một LLM khác, cung cấp kích thước ngữ cảnh là 4096.

Điểm chuẩn là cần thiết để đánh giá hiệu suất của những mẫu như vậy và trong lĩnh vực này, các nhà phát triển Trung Quốc khẳng định rằng Qwen-7B đã vượt qua Llama-2. Một số liệu nổi bật là điểm chuẩn mã hóa Human-Eval, trong đó Qwen-7B đạt 24.4 điểm so với Llama-2 là 12.8. Tuy nhiên, cần thận trọng khi xem những con số này. Một số điểm chuẩn cho thấy rằng Qwen-7B không chỉ vượt trội hơn mẫu cơ bản của LLama-2-7B nhưng cũng có LLaMABiến thể -2-13B. Tuy nhiên, khi đọ sức với các phiên bản tinh tế của Llama-2, biên độ chênh lệch trở nên hẹp hơn. Cần lưu ý rằng phương pháp huấn luyện chính xác của Qwen-7B chưa được các nhà phát triển của nó nêu chi tiết một cách rõ ràng.

Trong chức năng song song với LLaMa2-chat, Qwen đã giới thiệu một phiên bản tập trung vào trò chuyện có tên Qwen-7B-Chat. Mô hình này được tối ưu hóa để tương tác với người dùng và kết hợp nhiều công cụ và API để nâng cao khả năng đáp ứng của nó.

Những người thiên về chi tiết kỹ thuật sẽ quan tâm khi biết rằng nền tảng kiến ​​trúc của Qwen-7B giống với LLaMA. Tuy nhiên, có những đặc điểm riêng biệt giúp phân biệt Qwen-7B:

  1. Nó sử dụng nhúng untied.
  2. Rotary vị trí nhúng được sử dụng.
  3. Những thành kiến ​​​​được loại trừ, ngoại trừ QKV được chú ý.
  4. RMSNorm được ưa chuộng hơn LayerNorm.
  5. Thay vì ReLU tiêu chuẩn, SwiGLU được kết hợp.
  6. Chú ý chớp nhoáng đã được giới thiệu để đẩy nhanh quá trình đào tạo.
  7. Mô hình bao gồm 32 lớp, có kích thước nhúng là 4096 và chứa 32 đầu chú ý.

Về mặt cấp phép, Qwen-7B phù hợp với Llama-2. Nó cho phép sử dụng thương mại nhưng có quy định về số lượng người dùng. Trong khi Llama-2 đặt giới hạn này ở mức 700 triệu người dùng hoạt động mỗi tháng, ngưỡng của Qwen-7B là 100 triệu.

Những người muốn kiểm tra chuyên sâu có thể tham khảo báo cáo kỹ thuật có sẵn trên GitHub. Ngoài ra, trình diễn Qwen-7B, được cung cấp bằng tiếng Trung Quốc, có thể truy cập được đối với những người quan tâm đến việc khám phá thực tế các khả năng của mô hình.

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories
Tham gia bản tin của chúng tôi.
Tin mới nhất

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Nexo bắt đầu 'Cuộc săn lùng' thưởng cho người dùng 12 triệu USD token NEXO khi tương tác với hệ sinh thái của nó
thị trường Báo cáo tin tức Công nghệ
Nexo bắt đầu 'Cuộc săn lùng' thưởng cho người dùng 12 triệu USD token NEXO khi tương tác với hệ sinh thái của nó
8 Tháng Năm, 2024
Sàn giao dịch Revolut X của Revolut thu hút các nhà giao dịch tiền điện tử với mức phí sản xuất bằng 0 và phân tích nâng cao
thị trường Phần mềm Câu chuyện và đánh giá Công nghệ
Sàn giao dịch Revolut X của Revolut thu hút các nhà giao dịch tiền điện tử với mức phí sản xuất bằng 0 và phân tích nâng cao
8 Tháng Năm, 2024
Nền tảng giao dịch tiền điện tử BitMEX ra mắt giao dịch quyền chọn với 0 phí và ưu đãi tiền mặt
Kinh doanh thị trường Báo cáo tin tức
Nền tảng giao dịch tiền điện tử BitMEX ra mắt giao dịch quyền chọn với 0 phí và ưu đãi tiền mặt
8 Tháng Năm, 2024
Lisk chính thức chuyển sang Ethereum lớp 2 và ra mắt Core v4.0.6
Báo cáo tin tức Công nghệ
Lisk chính thức chuyển sang Ethereum lớp 2 và ra mắt Core v4.0.6
8 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH