Công ty khởi nghiệp AI MyShell phát hành thuật toán OpenVoice để nhân bản giọng nói chính xác
Tóm lại
Công ty khởi nghiệp AI của Canada MyShell tuyên bố họ đã có nguồn mở thuật toán OpenVoice để sao chép giọng nói ngay lập tức.
Người trả lời, Voicemod và ElevenLabs – cả ba công ty khởi nghiệp đều có một điểm chung – đều cung cấp thuật toán và phần mềm AI để tạo bản sao giọng nói. Bây giờ, một người chơi mới, công ty khởi nghiệp AI của Canada MyShell đã thông báo họ đã mở nguồn thuật toán OpenVoice để nhân bản giọng nói ngay lập tức.
MyShell đã chia sẻ bản cập nhật trên nền tảng truyền thông xã hội X và cho biết, “Giọng nói nhân bản với độ chính xác vô song, với khả năng kiểm soát âm sắc chi tiết, từ cảm xúc đến trọng âm, nhịp điệu, khoảng dừng và ngữ điệu, chỉ bằng một đoạn âm thanh nhỏ.”
Dưới sự hợp tác, các nhà nghiên cứu từ MIT, MyShell.ai và Đại học Thanh Hoa đã công bố OpenVoice, có thể tái tạo giọng nói của người nói và tạo ra giọng nói trong đa ngôn ngữ, chỉ sử dụng một đoạn âm thanh ngắn từ nguồn ban đầu. Nó cũng ghi lại âm sắc và màu sắc độc đáo của giọng nói của người nói.
Theo công ty, thuật toán bổ sung các yếu tố phong cách quan trọng như cảm xúc, giọng điệu, nhịp điệu, khoảng dừng và ngữ điệu. Những yếu tố này rất quan trọng để làm cho lời nói trở nên chân thực và tạo ra những cuộc trò chuyện thú vị. Nó giúp tránh âm thanh nhàm chán mà bạn thường gặp phải khi chuyển văn bản thành giọng nói thông thường.
Mô hình AI nhân bản giọng nói hoạt động như thế nào
Trong một bài nghiên cứu, OpenVoice đã chia sẻ phương pháp đằng sau AI nhân bản giọng nói của mình. OpenVoice bao gồm hai phần riêng biệt Mô hình AI: mô hình chuyển văn bản thành giọng nói (TTS) và “bộ chuyển đổi âm thanh”.
Mô hình này có thể quản lý các tham số văn phong và ngôn ngữ, đồng thời đã trải qua quá trình “đào tạo sử dụng 30,000 câu” từ tiếng Anh (bằng cả giọng Mỹ và giọng Anh), người nói tiếng Trung và tiếng Nhật. Quá trình đào tạo bao gồm việc dán nhãn cho các mẫu dựa trên cảm xúc được thể hiện và mô hình đã học được ngữ điệu, nhịp điệu và khoảng dừng từ các đoạn âm thanh này.
Mặt khác, mô hình chuyển đổi âm thanh được đào tạo trên tập dữ liệu khổng lồ gồm hơn 300,000 mẫu âm thanh từ hơn 20,000 loa khác nhau. Trong cả hai trường hợp, âm thanh lời nói của con người đều được chuyển đổi thành âm vị – những âm thanh cụ thể giúp phân biệt các từ – và được thể hiện bằng cách sử dụng các vectơ nhúng.
Mô hình TTS, sử dụng “loa cơ bản”, kết hợp với âm thanh thu được từ âm thanh được ghi lại của người dùng trong quá trình đào tạo. Cùng với nhau, hai mô hình này có thể tái tạo giọng nói của người dùng và sửa đổi màu sắc – biểu hiện cảm xúc được truyền tải trong văn bản nói.
Công ty khởi nghiệp này được thành lập vào năm 2023. Năm ngoái, MyShell đã huy động được 5.6 triệu đô la tài trợ ban đầu, do INCE Capital dẫn đầu và có sự tham gia của các nhà đầu tư nổi tiếng như Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC và OP Crypto, cùng những nhà đầu tư khác.
Theo công ty, nguồn tài trợ này sẽ giúp thúc đẩy hoạt động độc quyền Mô hình AI, việc tạo ra Creator Studio được thiết kế riêng cho các ứng dụng gốc AI và thiết lập một hệ sinh thái sáng tạo sôi động trong lĩnh vực công nghệ blockchain.
Từ chối trách nhiệm
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Kumar là một Nhà báo Công nghệ giàu kinh nghiệm với chuyên môn về các lĩnh vực giao thoa năng động giữa AI/ML, công nghệ tiếp thị và các lĩnh vực mới nổi như tiền điện tử, chuỗi khối và NFTS. Với hơn 3 năm kinh nghiệm trong ngành, Kumar đã lập được thành tích đã được chứng minh trong việc tạo ra những câu chuyện hấp dẫn, thực hiện các cuộc phỏng vấn sâu sắc và đưa ra những hiểu biết toàn diện. Chuyên môn của Kumar nằm ở việc sản xuất nội dung có tác động cao, bao gồm các bài báo, báo cáo và ấn phẩm nghiên cứu cho các nền tảng công nghiệp nổi bật. Với bộ kỹ năng độc đáo kết hợp giữa kiến thức kỹ thuật và cách kể chuyện, Kumar vượt trội trong việc truyền đạt các khái niệm công nghệ phức tạp tới nhiều đối tượng khác nhau một cách rõ ràng và hấp dẫn.
Xem thêm bài viếtKumar là một Nhà báo Công nghệ giàu kinh nghiệm với chuyên môn về các lĩnh vực giao thoa năng động giữa AI/ML, công nghệ tiếp thị và các lĩnh vực mới nổi như tiền điện tử, chuỗi khối và NFTS. Với hơn 3 năm kinh nghiệm trong ngành, Kumar đã lập được thành tích đã được chứng minh trong việc tạo ra những câu chuyện hấp dẫn, thực hiện các cuộc phỏng vấn sâu sắc và đưa ra những hiểu biết toàn diện. Chuyên môn của Kumar nằm ở việc sản xuất nội dung có tác động cao, bao gồm các bài báo, báo cáo và ấn phẩm nghiên cứu cho các nền tảng công nghiệp nổi bật. Với bộ kỹ năng độc đáo kết hợp giữa kiến thức kỹ thuật và cách kể chuyện, Kumar vượt trội trong việc truyền đạt các khái niệm công nghệ phức tạp tới nhiều đối tượng khác nhau một cách rõ ràng và hấp dẫn.