Báo cáo tin tức
21 Tháng Mười

Google AI đã công bố Trình tạo văn bản thành nhạc đầu tiên AudioLM

Tóm lại

AudioLM có thể tạo ra âm nhạc chỉ bằng cách nghe âm thanh

Mubert AI để tiếp tục lời nói của con người và âm nhạc piano

Với GPT-3 và những người khác, ý tưởng về AI có khả năng sáng tạo có cơ hội tốt để phát triển. Chúng tôi cũng khám phá ra các khái niệm về inpainting và outpainting; AI khéo léo hoàn thiện hình ảnh mà vẫn giữ nguyên chủ đề và phong cách. Còn âm nhạc thì sao?

Và một lần nữa! Vì tất cả những điều này đều dựa trên các mô hình ngôn ngữ AI có ý nghĩa, nên việc công nghệ này được áp dụng cho âm nhạc chỉ còn là vấn đề thời gian. Và giờ đã đến lúc.

Google AI đã công bố trình tạo văn bản thành nhạc đầu tiên AudioLM

Theo nghiên cứu gần đây của Google, một khung sản xuất âm thanh mới có tên là AudioLM có thể được dạy để tạo ra lời nói và nhạc piano chân thực chỉ bằng cách nghe âm thanh. Do tính nhất quán lâu dài và độ trung thực tuyệt vời, AudioLM vượt qua các hệ thống trước đó và nâng cao khả năng tạo âm thanh với các ứng dụng trong tổng hợp giọng nói và âm nhạc có sự trợ giúp của máy tính.

Chúng tôi đã phát triển một hệ thống để nhận dạng âm thanh tổng hợp do AudioLM sản xuất bằng cách sử dụng cùng các khái niệm AI đã làm nền tảng cho việc tạo ra các mẫu trước đây của chúng tôi.

âm thanhLM từ Google AI có thể kéo dài một đoạn âm thanh trong khi vẫn giữ nguyên “ý định”. Hiện tại, nó đã được đào tạo để tiếp tục lời nói của con người và nhạc piano, dựa trên một mẫu dữ liệu đầu vào hạn chế. Kiểm tra mẫu dưới đây.

Tiêu chí cho bài phát biểu rất đơn giản: Người nghe được yêu cầu đánh giá xem phần tiếp theo có giống lời nói của con người hay không. Với âm nhạc, người ta phát hiện ra rằng “phần tiếp theo” của phần được cung cấp cho đầu vào có chất lượng vượt trội hơn nhiều so với tất cả các trình tạo nhạc hiện tại từ đầu, chẳng hạn như JukeBox. Với một gợi ý ở đầu vào, AI tiếp tục âm nhạc tốt hơn đáng kể.

Google AI đã công bố trình tạo văn bản thành nhạc đầu tiên AudioLM

Những người đánh giá con người đã nghe các mẫu âm thanh để xác nhận kết quả. Họ xác định xem họ đang nghe thấy phần tiếp theo thực sự của giọng nói con người đã được ghi lại hay giọng nói nhân tạo do AudioLM tạo ra. Dữ liệu của họ cho thấy tỷ lệ thành công là 51.2%. Do đó, người nghe bình thường sẽ gặp khó khăn trong việc phân biệt giữa lời nói do AudioLM tạo ra và lời nói thực tế của con người.

Công nghệ chuyển văn bản thành nhạc có làm thay đổi ngành kinh doanh âm nhạc không?

Trình tạo văn bản thành nhạc dựa trên API Mubert gần đây đã được công bố bởi một mô hình AI khác, Mubert. Mubert tạo ra một nhóm âm thanh khác nhau cho mỗi yêu cầu bạn gửi. Khả năng lặp lại thực sự rất mong manh. Âm nhạc được tạo ra khi có yêu cầu; nó không được lấy từ cơ sở dữ liệu các giai điệu đã hoàn thành. Thật sự làm sao sáng tạo âm nhạc này là một câu hỏi phổ biến.

Công nghệ chuyển văn bản thành nhạc có làm thay đổi ngành kinh doanh âm nhạc không?

Âm thanh được chọn trước khi tạo. Cả dấu nhắc đầu vào và thẻ Mubert API đều được mã hóa thành vectơ không gian tiềm ẩn của mạng thần kinh biến áp. Vectơ thẻ gần nhất cho mỗi truy vấn sau đó được chọn và các thẻ đi kèm được truyền tới API của chúng tôi để tạo nhạc. Không có mạng thần kinh nào được sử dụng để tạo ra bất kỳ âm thanh nào (các vòng lặp riêng biệt cho âm trầm, âm dẫn, v.v.); tất cả âm thanh đều do nhạc sĩ và nhà thiết kế âm thanh tạo ra.

Bước quan trọng tiếp theo của Mubert là lấy các mục từ thế giới hiện tại, chẳng hạn như ảnh, phim, kịch bản và bản trình bày, đồng thời tạo ra âm nhạc của thế giới xung quanh bạn.

Đây là những gì bạn có thể nhận được bằng cách liều lĩnh đặt lời nhắc văn bản vào miệng của Mubert AI âm nhạc:

Đây là giai đoạn ban đầu trong quá trình xây dựng một thuật toán tạo phức tạp và chính xác hơn, nhưng điều này sẽ tốn thời gian và tiền bạc.

Tuy nhiên, công nghệ chuyển văn bản thành nhạc đã có sẵn, vì vậy bạn có thể tạo hàng loạt anbom bằng cách tắt “dấu nhắc đầu vào” cho “viết một tập lệnh nhắc ngẫu nhiên”. Có vẻ như các nghệ sĩ không còn cần thiết nữa.

Đọc thêm các tin liên quan:

Từ chối trách nhiệm

Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.

Giới thiệu về Tác giả

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Xem thêm bài viết
Damir Yalalov
Damir Yalalov

Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet. 

Sự thèm muốn của các tổ chức ngày càng tăng đối với các quỹ ETF Bitcoin trong bối cảnh biến động

Tiết lộ thông qua hồ sơ 13F cho thấy các nhà đầu tư tổ chức đáng chú ý đang đầu tư vào Bitcoin ETF, nhấn mạnh sự chấp nhận ngày càng tăng đối với ...

Biết thêm

Ngày tuyên án đến: Số phận của CZ đang cân bằng khi Tòa án Hoa Kỳ xem xét lời bào chữa của DOJ

Changpeng Zhao sẽ phải đối mặt với bản tuyên án tại tòa án Hoa Kỳ ở Seattle vào ngày hôm nay.

Biết thêm
Tham gia cộng đồng công nghệ đổi mới của chúng tôi
Tìm hiểu thêm
Tìm hiểu thêm
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
Kinh doanh Báo cáo tin tức Công nghệ
Injective hợp tác với AltLayer để mang lại tính bảo mật cho việc thiết lập lại inEVM
3 Tháng Năm, 2024
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
thị trường Báo cáo tin tức Công nghệ
Masa hợp tác với Teller để giới thiệu nhóm cho vay MASA, cho phép vay USDC trên cơ sở
3 Tháng Năm, 2024
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
thị trường Báo cáo tin tức Công nghệ
Velodrome ra mắt phiên bản Superchain Beta trong những tuần tới và mở rộng trên các chuỗi khối lớp 2 của OP
3 Tháng Năm, 2024
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
Kinh doanh Báo cáo tin tức Công nghệ
CARV công bố hợp tác với Aethir để phân cấp lớp dữ liệu và phân phối phần thưởng
3 Tháng Năm, 2024
CRYPTOMERIA LABS PTE. CÔNG TY TNHH