Báo cáo tin tức Công nghệ
08 Tháng một, 2023

VALL-E: Mô hình chuyển văn bản thành giọng nói zero-shot mới của Microsoft có thể sao chép giọng nói của mọi người trong ba giây

Tóm lại

Chỉ với một mẫu ba giây của bất kỳ giọng nói nào, mô hình TTS dựa trên máy biến áp VALL-E có thể tạo ra lời nói ở mọi giọng nói.

Đây là một tiến bộ đáng kể theo hướng các hệ thống TTS nghe tự nhiên hơn.

Tuy nhiên, Microsoft đã cung cấp một vài mẫu của mô hình đang được sử dụng và rõ ràng là điều này thể hiện sự phát triển đáng kể trong công nghệ TTS.

Kể từ khi phát hành mô hình chuyển văn bản thành giọng nói (TTS) đầu tiên, các nhà nghiên cứu đã tìm cách cải thiện cách các hệ thống này tạo ra lời nói. Mẫu mới nhất của Microsoft, THUNG LŨNG, là một bước tiến quan trọng trong vấn đề này.

VALL-E là một mẫu TTS dựa trên máy biến áp có thể tạo giọng nói bằng bất kỳ giọng nói nào sau khi chỉ nghe mẫu giọng nói đó trong ba giây. Đây là một cải tiến đáng kể so với các mô hình trước đó, đòi hỏi thời gian đào tạo lâu hơn nhiều để tạo ra một giọng nói mới.

VALL-E là một kỳ tích công nghệ đáng kinh ngạc có khả năng thay đổi cách chúng ta tương tác với phương tiện kỹ thuật số.
Bài viết liên quan: Microsoft đã phát hành một mô hình khuếch tán có thể tạo hình đại diện 3D từ một bức ảnh duy nhất của một người

Ngoài ra, ngữ điệu, sức hút và phong cách của giọng nói đều được giữ nguyên vẹn trong bài phát biểu được tạo. Đây là một bước tiến quan trọng trong việc làm cho hệ thống TTS có âm thanh tự nhiên hơn.

Mô hình này dựa trên máy biến áp và có hình dáng Dale-1. Đừng nhầm lẫn với Dalle-2 dựa trên khuếch tán. Mã vẫn còn thiếu. Và người dùng có một số hoài nghi rằng họ sẽ đăng nó.

Bài viết liên quan: VALL-E của Microsoft dường như là phần mềm lừa đảo nguy hiểm nhất từ ​​trước đến nay

Tuy nhiên, Microsoft đã đưa ra một vài ví dụ về mô hình đang hoạt động và rõ ràng đây là một bước tiến lớn trong công nghệ TTS.

Ví dụ #1:

Thí dụ #2:

Ví dụ #3:

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories
Tham gia bản tin của chúng tôi.
Tin mới nhất

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm

Những người sáng lập ví Samourai bị buộc tội tạo điều kiện cho các giao dịch Darknet trị giá 2 tỷ USD

Sự e ngại của những người sáng lập Ví Samourai thể hiện một bước thụt lùi đáng chú ý đối với ngành, nhấn mạnh sự kiên trì ...

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Med-Gemini của Google sẵn sàng mang lại khởi đầu thuận lợi cho GPT-4 Với hiệu suất vượt trội trong chăm sóc sức khỏe
AI Wiki Tin tức Phần mềm Công nghệ
Med-Gemini của Google sẵn sàng mang lại khởi đầu thuận lợi cho GPT-4 Với hiệu suất vượt trội trong chăm sóc sức khỏe
2 Tháng Năm, 2024
Thành viên Hội đồng Lập pháp Hồng Kông Wu Jiezhuang ra hiệu vụ kiện dân sự chống lại sàn giao dịch tiền điện tử JPEX
Kinh doanh Báo cáo tin tức Công nghệ
Thành viên Hội đồng Lập pháp Hồng Kông Wu Jiezhuang ra hiệu vụ kiện dân sự chống lại sàn giao dịch tiền điện tử JPEX
2 Tháng Năm, 2024
AltLayer bước vào giai đoạn thứ hai của sáng kiến ​​đặt cược, giới thiệu mã thông báo reALT
thị trường Báo cáo tin tức Công nghệ
AltLayer bước vào giai đoạn thứ hai của sáng kiến ​​đặt cược, giới thiệu mã thông báo reALT
2 Tháng Năm, 2024
Chuỗi BNB công bố Báo cáo quý 1 năm 2024, nhấn mạnh mức giảm giá trị 55.8%, trong khi BSC TVL tăng vọt 70.8%
thị trường Báo cáo tin tức Công nghệ
Chuỗi BNB công bố Báo cáo quý 1 năm 2024, nhấn mạnh mức giảm giá trị 55.8%, trong khi BSC TVL tăng vọt 70.8%
2 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH