Báo cáo tin tức Công nghệ
15 Tháng hai, 2023

SingSong: Các nhà nghiên cứu AI của Google tìm cách tạo nhạc để đi kèm với giọng hát đầu vào

Tóm lại

Hệ thống mới có tên SingSong sử dụng mô hình học tập để tạo ra âm nhạc đồng bộ với ca hát hơn các hệ thống hiện có.

Các nhà nghiên cứu cho biết hệ thống này có thể được sử dụng để tạo các bản nhạc karaoke cho các ca sĩ chuyên nghiệp hoặc giúp các ca sĩ nghiệp dư tìm được phần đệm phù hợp với giọng hát của họ.

Các nhà nghiên cứu tại Google đã tìm ra cách sử dụng trí tuệ nhân tạo để tạo ra âm nhạc tương thích với ca hát. Hệ thống mới, được gọi là SingSong, sử dụng mô hình học sâu để tạo nhạc đệm đồng bộ hơn với giọng hát so với các hệ thống hiện có khác. Các nhà nghiên cứu nói rằng hệ thống này có thể được sử dụng để tạo các bản nhạc karaoke cho các ca sĩ chuyên nghiệp hoặc giúp các ca sĩ nghiệp dư tìm được phần đệm phù hợp hơn với giọng hát của họ.

Karaoke đảo ngược: Nhà nghiên cứu AI tìm cách tạo nhạc để hát
Các hệ thống tạo nhạc đệm trước đây dựa trên các thuật toán cố gắng khớp thời gian và cao độ của bài hát.

Hát bài hát là một hệ thống do Google phát triển để tạo nhạc cụ đi kèm với giọng hát đầu vào. Nó có thể cung cấp cho cả nhạc sĩ và những người không phải là nhạc sĩ một cách tiếp cận mới đơn giản để tạo ra âm nhạc có giọng hát của chính họ. Các nhà phát triển dựa trên những tiến bộ gần đây trong việc tách nguồn nhạc và sản xuất âm thanh để đạt được điều này. Các nhà phát triển đặc biệt sử dụng phương pháp tách nguồn tiên tiến để xây dựng các cặp nguồn giọng hát và nhạc cụ được căn chỉnh từ một kho lớn các bản ghi âm nhạc. Sau đó, các nhà phát triển sửa đổi âm thanhLM, một phương pháp tiên tiến để tạo âm thanh vô điều kiện, để nó có thể được huấn luyện trên các cặp (giọng hát, nhạc cụ) được phân tách nguồn cho các tác vụ tạo “âm thanh thành âm thanh” có điều kiện.

Bài viết được đề xuất: 5 công cụ tạo âm thanh và nhạc AI hàng đầu để tạo các bản nhạc miễn phí bản quyền

Các nhà nghiên cứu AI điều tra các tính năng khác nhau của đầu vào giọng nói, tính năng tốt nhất giúp tăng hiệu suất định lượng cho các giọng hát bị cô lập lên 53% so với tính năng AudioLM mặc định, nhằm cải thiện khả năng khái quát hóa của hệ thống từ dữ liệu đào tạo được phân tách nguồn (trong đó giọng hát chứa các thành phần tạo tác của nhạc cụ) cho giọng hát riêng biệt mà các nhà phát triển có thể mong đợi từ người dùng. Người nghe thể hiện sự yêu thích đáng kể đối với nhạc cụ do SingSong sản xuất so với nhạc cụ từ đường cơ sở có khả năng truy xuất mạnh khi so sánh theo cặp với cùng đầu vào giọng nói.

Ngược lại, hệ thống mới sử dụng một mô hình học tập sâu đã được đào tạo trên một tập dữ liệu lớn về âm nhạc. Điều này cho phép hệ thống tạo nhạc đệm đồng bộ với giọng hát và thời gian của ca sĩ.

Đối với nghiên cứu này, người nghe được cung cấp hai bản mashup giọng hát-nhạc cụ dài 10 giây, trong đó các giọng (lấy từ bài kiểm tra MUSDB18) giống nhau trong khi các nhạc cụ khác nhau và đến từ nhiều nguồn khác nhau (sự thật cơ bản, mô hình googlehoặc đường cơ sở). Câu hỏi yêu cầu người nghe chọn sự kết hợp nào trong hai cách kết hợp mà họ cảm thấy phần đệm của nhạc cụ phù hợp với giọng hát hơn.

Bài viết được đề xuất: Top 7 trình tạo giọng nói AI và sao chép giọng nói để chuyển văn bản thành giọng nói

Những ví dụ mới của SingSong

Bằng cách sử dụng một loạt các mạng lưới thần kinh sâu và mô hình sinh sản, các nhà phát triển có thể tạo ra các bản nhạc đệm hài hòa mà không có độ trễ cho các đoạn dài hơn.

Tiếng nói chuyên nghiệp của bộ dữ liệu MUSDB18 đã được sử dụng trong các ví dụ trước. Chúng tôi cũng bị hấp dẫn bởi khả năng hỗ trợ và cho phép bất kỳ ai của SingSong tạo ra âm nhạc bằng giọng nói của họ. Ở đây, chúng tôi kiểm tra điều này bằng cách sử dụng các mẫu giọng hát từ bộ dữ liệu Vocadito, bao gồm các bản ghi âm của các ca sĩ nghiệp dư được thực hiện trên thiết bị điện tử tiêu dùng.

Hệ thống vẫn đang trong giai đoạn phát triển ban đầu. Mặc dù các nhà nghiên cứu nói rằng nó cần phải được cải tiến trước khi có thể sử dụng thương mại, nhưng họ tin rằng nó có tiềm năng cách mạng hóa ngành công nghiệp karaoke và giúp các ca sĩ nghiệp dư tìm được nhạc đệm phù hợp với họ.

Đọc thêm bài viết liên quan:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
Kinh doanh Báo cáo tin tức Công nghệ
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
3 Tháng Năm, 2024
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
thị trường Báo cáo tin tức Công nghệ
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
3 Tháng Năm, 2024
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
thị trường Báo cáo tin tức Công nghệ
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
3 Tháng Năm, 2024
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
Kinh doanh Báo cáo tin tức Công nghệ
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
3 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH