Báo cáo tin tức SMW Công nghệ
30 Tháng Năm, 2023

SoundStorm: Google tiết lộ công cụ AI đáng sợ có khả năng sao chép giọng nói theo thời gian thực

Tóm lại

Google đã giới thiệu SoundStorm, một mô hình tiên tiến để tạo âm thanh hiệu quả và không tự hồi phục.

Nó sử dụng sự chú ý hai chiều và giải mã song song dựa trên độ tin cậy để tạo ra âm thanh chất lượng cao đồng thời giảm đáng kể thời gian tạo.

Nó cũng có khả năng tổng hợp các đoạn hội thoại tự nhiên.

Google đã giới thiệu bước đột phá mới nhất của mình trong công nghệ trí tuệ nhân tạo với SoundStorm, một mô hình tiên tiến để tạo âm thanh hiệu quả và không tự hồi quy. Với khả năng tổng hợp hội thoại với các giọng nói khác nhau, SoundStorm mở ra những khả năng mới cho các ứng dụng như tạo nội dung âm thanh từ văn bản viết và tạo podcast thực tế.

SoundStorm: Google tiết lộ công cụ AI đáng sợ có khả năng sao chép giọng nói theo thời gian thực
@Midjourney

Không giống như người tiền nhiệm của nó âm thanhLM, SoundStorm sử dụng một kiến ​​trúc mới tạo ra âm thanh trong khoảng 30 giây, nâng cao hiệu quả. Bằng cách tận dụng sự chú ý hai chiều và giải mã song song dựa trên độ tin cậy, kiểu máy này tạo ra âm thanh chất lượng cao đồng thời giảm đáng kể thời gian tạo. Trên phần cứng TPU-v4 của Google, SoundStorm có thể tạo âm thanh 30 giây chỉ trong 0.5 giây, đánh dấu sự cải thiện đáng kể về tốc độ.

Quá trình đào tạo của SoundStorm được thực hiện bằng cách sử dụng bộ dữ liệu khổng lồ gồm 100,000 giờ đối thoại, đảm bảo hiểu rõ các mẫu ngôn ngữ nói. Mô hình này đạt được sự thống nhất ấn tượng về điều kiện giọng nói và âm thanh trong khi vẫn duy trì chất lượng âm thanh mà AudioLM đạt được. Bước đột phá này làm cho SoundStorm nhanh hơn hai bậc so với người tiền nhiệm của nó, chứng tỏ tiềm năng tạo âm thanh có thể mở rộng của nó.

Một trong những khả năng chính của SoundStorm là khả năng tổng hợp các cuộc đối thoại tự nhiên bằng cách tận dụng giai đoạn mô hình hóa văn bản thành ngữ nghĩa của SPEAR-TTS. Bằng cách cung cấp bản ghi với lượt người nói và lời nhắc bằng giọng nói ngắn, người dùng có thể kiểm soát nội dung được nói và giọng nói của người nói. Trong quá trình thử nghiệm, SoundStorm đã thể hiện khả năng tổng hợp các đoạn hội thoại dài 30 giây chỉ trong 2 giây trên một TPU-v4 duy nhất, cho thấy tính hiệu quả và tính linh hoạt của nó.

Nhắc bằng giọng nói

Đối Thoại Tổng Hợp

Khi so sánh với các đường cơ sở tiêu chuẩn, âm thanh do SoundStorm tạo ra có chất lượng tương đương với AudioLM và thể hiện tính nhất quán và tính toàn vẹn âm thanh vượt trội. Đáng chú ý, khi được yêu cầu đưa ra một mẫu giọng nói, mô hình này giữ nguyên giọng nói của người nói với độ chính xác đáng kinh ngạc, giúp tăng đáng kể khả năng tạo ra cuộc đối thoại sống động như thật.

Mặc dù khả năng của SoundStorm rất vượt trội nhưng điều quan trọng là phải nhận biết và giải quyết được các vấn đề có thể xảy ra. đạo đức quan tâm. Dữ liệu huấn luyện cho thuật toán có thể đưa ra các sai lệch liên quan đến giọng và đặc điểm giọng nói. Khả năng bắt chước giọng nói có thể bị lạm dụng mạo danh hoặc để phá vỡ nhận dạng sinh trắc học. Google nhấn mạnh tầm quan trọng của việc áp dụng các biện pháp bảo vệ để ngăn chặn sự lạm dụng đó và đảm bảo khả năng phát hiện của âm thanh được tạo thông qua các bộ phân loại chuyên dụng.

Các nguyên tắc AI có đạo đức của Google thúc đẩy các nỗ lực không ngừng của Google nhằm giải quyết các mối nguy và hạn chế tiềm ẩn. Tổ chức nhận ra sự cần thiết phải thực hiện nghiên cứu kỹ lưỡng về dữ liệu đào tạo và ý nghĩa đối với kết quả đầu ra của mô hình. Họ cũng có kế hoạch điều tra các phương pháp bổ sung, chẳng hạn như hình mờ âm thanh, để phát hiện giọng nói tổng hợp nhằm sử dụng công nghệ này một cách có đạo đức.

  • SoundStorm là một bước tiến lớn trong sản xuất âm thanh do AI cung cấp, cung cấp các bản trình bày âm thanh có nguồn gốc từ codec âm thanh thần kinh chất lượng cao và hiệu quả. Google hy vọng rằng nhu cầu xử lý và bộ nhớ thấp hơn của SoundStorm sẽ giúp nghiên cứu tạo âm thanh dễ tiếp cận hơn với cộng đồng rộng lớn hơn. Google luôn tận tâm duy trì các hoạt động AI có trách nhiệm và đảm bảo việc sử dụng SoundStorm một cách an toàn và có trách nhiệm cũng như các bước đột phá có thể so sánh được trong lĩnh vực này khi công nghệ phát triển.
  • THUNG LŨNG, mô hình chuyển văn bản thành giọng nói (TTS) mới nhất của Microsoft, là một bước tiến lớn trong việc nâng cao cách các hệ thống này tạo ra giọng nói. VALL-E là một mô hình TTS dựa trên các máy biến áp có thể tạo ra lời nói bằng bất kỳ giọng nói nào sau khi chỉ nghe một đoạn mẫu dài ba giây của giọng nói đó. Đây là một tiến bộ lớn so với các mẫu trước đó, đòi hỏi thời gian đào tạo lâu hơn đáng kể để phát triển giọng nói mới.

Đọc thêm về AI:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Hot Stories
Tham gia bản tin của chúng tôi.
Tin mới nhất

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm

Những người sáng lập ví Samourai bị buộc tội tạo điều kiện cho các giao dịch Darknet trị giá 2 tỷ USD

Sự e ngại của những người sáng lập Ví Samourai thể hiện một bước thụt lùi đáng chú ý đối với ngành, nhấn mạnh sự kiên trì ...

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Pantera Capital đầu tư vào TON Blockchain, bày tỏ sự tin tưởng vào tiềm năng mở rộng khả năng tiếp cận tiền điện tử của Telegram
Kinh doanh Báo cáo tin tức Công nghệ
Pantera Capital đầu tư vào TON Blockchain, bày tỏ sự tin tưởng vào tiềm năng mở rộng khả năng tiếp cận tiền điện tử của Telegram
2 Tháng Năm, 2024
Mitosis huy động được 7 triệu đô la tài trợ từ Amber Group và các dự án có tầm nhìn xa để nâng cao giao thức thanh khoản mô-đun của nó
Kinh doanh Báo cáo tin tức Công nghệ
Mitosis huy động được 7 triệu đô la tài trợ từ Amber Group và các dự án có tầm nhìn xa để nâng cao giao thức thanh khoản mô-đun của nó
2 Tháng Năm, 2024
Galxe hợp tác với Jambo để mở rộng khả năng tiếp cận toàn cầu tới Web3
Kinh doanh Báo cáo tin tức Công nghệ
Galxe hợp tác với Jambo để mở rộng khả năng tiếp cận toàn cầu tới Web3
2 Tháng Năm, 2024
Med-Gemini của Google sẵn sàng mang lại khởi đầu thuận lợi cho GPT-4 Với hiệu suất vượt trội trong chăm sóc sức khỏe
AI Wiki Tin tức Phần mềm Công nghệ
Med-Gemini của Google sẵn sàng mang lại khởi đầu thuận lợi cho GPT-4 Với hiệu suất vượt trội trong chăm sóc sức khỏe
2 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH