Meta AI giới thiệu ASR đa ngôn ngữ, nâng cao khả năng nhận dạng giọng nói tự động trên hơn 1,600 ngôn ngữ
Tóm lại
Meta AI đã ra mắt hệ thống ASR đa ngôn ngữ, cung cấp khả năng nhận dạng giọng nói cho hơn 1,600 ngôn ngữ và phát hành các mô hình nguồn mở cùng kho dữ liệu cho 350 ngôn ngữ chưa được phục vụ.
Bộ phận nghiên cứu của công ty công nghệ Meta chuyên về AI và thực tế tăng cường, Mục tiêu AI công bố phát hành hệ thống Nhận dạng giọng nói tự động đa ngôn ngữ (ASR) Meta.
Bộ mô hình này cung cấp khả năng nhận dạng giọng nói tự động cho hơn 1,600 ngôn ngữ, đạt hiệu suất chất lượng cao ở quy mô chưa từng có. Ngoài ra, Meta AI đang mã nguồn mở Omnilingual wav2vec 2.0, một mô hình biểu diễn giọng nói tự giám sát, đa ngôn ngữ với 7 tỷ tham số, được thiết kế để hỗ trợ nhiều tác vụ giọng nói hạ nguồn khác nhau.
Cùng với các công cụ này, tổ chức cũng đang phát hành Omnilingual ASR Corpus, một bộ sưu tập được tuyển chọn gồm các bài phát biểu đã phiên âm từ 350 ngôn ngữ chưa được biết đến, được phát triển thông qua sự hợp tác với các cộng tác viên toàn cầu.
Nhận dạng giọng nói tự động đã có những bước tiến vượt bậc trong những năm gần đây, đạt được độ chính xác gần như hoàn hảo cho nhiều ngôn ngữ được sử dụng rộng rãi. Tuy nhiên, việc mở rộng phạm vi phủ sóng sang các ngôn ngữ ít nguồn lực hơn vẫn còn nhiều thách thức do nhu cầu dữ liệu và tính toán cao của các kiến trúc AI hiện có. Hệ thống ASR đa ngôn ngữ giải quyết hạn chế này bằng cách mở rộng bộ mã hóa giọng nói wav2vec 2.0 lên 7 tỷ tham số, tạo ra các biểu diễn đa ngôn ngữ phong phú từ giọng nói thô, chưa được phiên âm. Hai biến thể giải mã ánh xạ các biểu diễn này thành các mã ký tự: một biến thể sử dụng phân loại thời gian kết nối (CTC) và biến thể còn lại sử dụng phương pháp dựa trên bộ biến đổi tương tự như trong các mô hình ngôn ngữ lớn.
Phương pháp ASR lấy cảm hứng từ LLM này đạt được hiệu suất tiên tiến trên hơn 1,600 ngôn ngữ, với tỷ lệ lỗi ký tự dưới 10 cho 78% trong số đó và giới thiệu phương pháp linh hoạt hơn để thêm ngôn ngữ mới.
Không giống như các hệ thống truyền thống đòi hỏi sự tinh chỉnh chuyên sâu, Omnilingual ASR có thể tích hợp một ngôn ngữ chưa được hỗ trợ trước đây chỉ bằng một vài ví dụ âm thanh-văn bản được ghép nối, cho phép phiên âm mà không cần dữ liệu mở rộng, chuyên môn sâu hoặc công nghệ tính toán cao cấp. Mặc dù kết quả zero-shot chưa thể sánh bằng với các hệ thống được đào tạo đầy đủ, phương pháp này cung cấp một giải pháp có khả năng mở rộng để đưa các ngôn ngữ chưa được hỗ trợ vào hệ sinh thái kỹ thuật số.
Meta AI sẽ nâng cao khả năng nhận dạng giọng nói với bộ ASR đa ngôn ngữ và Corpus
Bộ phận nghiên cứu đã phát hành một bộ mô hình và tập dữ liệu toàn diện được thiết kế để cải tiến công nghệ giọng nói cho bất kỳ ngôn ngữ nào. Dựa trên nghiên cứu trước đây của FAIR, Omnilingual ASR bao gồm hai biến thể bộ giải mã, từ các mô hình 300M nhẹ cho các thiết bị công suất thấp đến các mô hình 7B cung cấp độ chính xác cao trên nhiều ứng dụng khác nhau. Mô hình nền tảng giọng nói wav2vec 2.0 đa năng cũng có sẵn ở nhiều kích cỡ, cho phép thực hiện nhiều tác vụ liên quan đến giọng nói ngoài ASR. Tất cả các mô hình đều được cung cấp theo giấy phép Apache 2.0 và tập dữ liệu được cung cấp theo giấy phép CC-BY, cho phép các nhà nghiên cứu, nhà phát triển và những người ủng hộ ngôn ngữ điều chỉnh và mở rộng các giải pháp giọng nói bằng cách sử dụng nền tảng fairseq2 nguồn mở của FAIR trong hệ sinh thái PyTorch.
ASR đa ngôn ngữ được đào tạo trên một trong những kho dữ liệu ASR lớn nhất và đa dạng nhất về mặt ngôn ngữ từng được xây dựng, kết hợp các tập dữ liệu công khai với các bản ghi âm do cộng đồng cung cấp. Để hỗ trợ các ngôn ngữ có sự hiện diện kỹ thuật số hạn chế, Mục tiêu AI đã hợp tác với các tổ chức địa phương để tuyển dụng và trả lương cho người bản ngữ ở các vùng xa xôi hoặc chưa được ghi chép đầy đủ, tạo ra Kho dữ liệu ASR Đa ngôn ngữ, bộ dữ liệu ASR tự phát với nguồn lực cực thấp lớn nhất cho đến nay. Các hoạt động hợp tác bổ sung thông qua Chương trình Đối tác Công nghệ Ngôn ngữ đã quy tụ các nhà ngôn ngữ học, nhà nghiên cứu và cộng đồng ngôn ngữ trên toàn thế giới, bao gồm các quan hệ đối tác với Common Voice của Quỹ Mozilla và Lanfrica/NaijaVoices. Những nỗ lực này đã cung cấp cái nhìn sâu sắc về ngôn ngữ học và bối cảnh văn hóa, đảm bảo công nghệ đáp ứng nhu cầu địa phương đồng thời trao quyền cho các cộng đồng ngôn ngữ đa dạng trên toàn cầu.
Trách nhiệm công ty
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Alisa, một nhà báo tận tâm tại MPost, chuyên về tiền điện tử, bằng chứng không có kiến thức, đầu tư và lĩnh vực mở rộng của Web3. Với con mắt quan tâm đến các xu hướng và công nghệ mới nổi, cô cung cấp thông tin toàn diện để cung cấp thông tin và thu hút độc giả trong bối cảnh không ngừng phát triển của tài chính kỹ thuật số.
Xem thêm bài viết
Alisa, một nhà báo tận tâm tại MPost, chuyên về tiền điện tử, bằng chứng không có kiến thức, đầu tư và lĩnh vực mở rộng của Web3. Với con mắt quan tâm đến các xu hướng và công nghệ mới nổi, cô cung cấp thông tin toàn diện để cung cấp thông tin và thu hút độc giả trong bối cảnh không ngừng phát triển của tài chính kỹ thuật số.