Báo cáo tin tức Công nghệ
06 Tháng hai, 2023

XLM-V: Một phương pháp mới của các mô hình ngôn ngữ ẩn đa ngôn ngữ cố gắng giải quyết vấn đề tắc nghẽn từ vựng

Tóm lại

Bài viết đặt ra vấn đề sau: mô hình ngôn ngữ tăng thông số, tăng chiều sâu nhưng vốn từ vựng vẫn giữ nguyên về kích thước.

Các nhà nghiên cứu bắt đầu đào tạo một mô hình mới với 1 triệu mã thông báo từ từ vựng một cách bất ngờ.

Các nhà nghiên cứu đã quyết tâm xem họ có thể tạo ra loại cải tiến nào với số lượng mã thông báo tăng đáng kể như vậy.

Vấn đề được nêu ra bởi bài viết có tựa đề “XLM-V: Vượt qua nút cổ chai từ vựng trong các mô hình ngôn ngữ ẩn đa ngôn ngữ” là khi các tham số và độ sâu của các mô hình ngôn ngữ tăng lên, thì kích thước từ vựng của chúng vẫn không thay đổi. Chẳng hạn, mô hình mT5 có tham số 13B nhưng vốn từ vựng 250 nghìn từ hỗ trợ hơn 100 ngôn ngữ. Do đó, mỗi ngôn ngữ có khoảng 2,500 mã thông báo duy nhất, đây rõ ràng là một con số rất nhỏ.

XLM-V: Một phương pháp mới của Mô hình ngôn ngữ ẩn đa ngôn ngữ cố gắng giải quyết vấn đề tắc nghẽn từ vựng
@ Midjourney / Shalv

Tác giả có hành động gì? Họ bắt đầu đào tạo một mô hình mới với 1 triệu mã thông báo từ từ vựng một cách bất ngờ. XLM-R trước đây đã tồn tại, tuy nhiên với bản nâng cấp này, nó sẽ trở thành XLM-V. Những người viết đã quyết tâm xem họ có thể tạo ra loại cải tiến nào với số lượng mã thông báo tăng đáng kể như vậy.

Bài viết liên quan: Chi phí đào tạo mô hình AI dự kiến ​​sẽ tăng từ 100 triệu đô la lên 500 triệu đô la vào năm 2030

XLM-V có gì mới mà XLM-R không có?

XLM-V có gì mới mà XLM-R không có?

sự cải thiện Mô hình đa ngôn ngữ với phương pháp Language-Clustered Vocabularies được sử dụng để xây dựng các vectơ biểu diễn từ vựng cho mỗi ngôn ngữ như sau: đối với mỗi ngôn ngữ trong tập hợp các ngôn ngữ, chúng tạo thành một vectơ nhị phân, mỗi phần tử của vectơ này là một từ cụ thể trong ngôn ngữ đó. Một biểu thị rằng từ này được bao gồm trong từ điển của ngôn ngữ (bạn có thể xem hình ảnh có mô tả bằng hình ảnh trong tệp đính kèm.) Tuy nhiên, bằng cách tạo một vectơ sử dụng xác suất xuất hiện logarit âm của mỗi từ vựng, các tác giả đã nâng cao cách tạo các tham chiếu .

  1. Các vectơ được nhóm lại sau đó. Ngoài ra, một mô hình câu được đào tạo trên từng cụm cụ thể để ngăn chặn việc chuyển từ vựng giữa các ngôn ngữ không liên quan đến từ vựng.
  2. ALP đánh giá khả năng đại diện cho một ngôn ngữ cụ thể của từ điển.
  3. Sử dụng thuật toán để tạo Siêu nhẹ từ điển là bước tiếp theo. bắt đầu bằng một từ điển lớn ban đầu và cắt dần nó cho đến khi số lượng mã thông báo thấp hơn một ngưỡng nhất định đối với kích thước từ điển.

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
Kinh doanh Báo cáo tin tức Công nghệ
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
3 Tháng Năm, 2024
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
thị trường Báo cáo tin tức Công nghệ
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
3 Tháng Năm, 2024
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
thị trường Báo cáo tin tức Công nghệ
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
3 Tháng Năm, 2024
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
Kinh doanh Báo cáo tin tức Công nghệ
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
3 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH