Google AI đã công bố Trình tạo văn bản thành nhạc đầu tiên AudioLM
Tóm lại
AudioLM có thể tạo ra âm nhạc chỉ bằng cách nghe âm thanh
Mubert AI để tiếp tục lời nói của con người và âm nhạc piano
Với GPT-3 và những người khác, ý tưởng về AI có khả năng sáng tạo có cơ hội tốt để phát triển. Chúng tôi cũng khám phá ra các khái niệm về inpainting và outpainting; AI khéo léo hoàn thiện hình ảnh mà vẫn giữ nguyên chủ đề và phong cách. Còn âm nhạc thì sao?
Và một lần nữa! Vì tất cả những điều này đều dựa trên các mô hình ngôn ngữ AI có ý nghĩa, nên việc công nghệ này được áp dụng cho âm nhạc chỉ còn là vấn đề thời gian. Và giờ đã đến lúc.
Theo nghiên cứu gần đây của Google, một khung sản xuất âm thanh mới có tên là AudioLM có thể được dạy để tạo ra lời nói và nhạc piano chân thực chỉ bằng cách nghe âm thanh. Do tính nhất quán lâu dài và độ trung thực tuyệt vời, AudioLM vượt qua các hệ thống trước đó và nâng cao khả năng tạo âm thanh với các ứng dụng trong tổng hợp giọng nói và âm nhạc có sự trợ giúp của máy tính.
âm thanhLM từ Google AI có thể kéo dài một đoạn âm thanh trong khi vẫn giữ nguyên “ý định”. Hiện tại, nó đã được đào tạo để tiếp tục lời nói của con người và nhạc piano, dựa trên một mẫu dữ liệu đầu vào hạn chế. Kiểm tra mẫu dưới đây.
Tiêu chí cho bài phát biểu rất đơn giản: Người nghe được yêu cầu đánh giá xem phần tiếp theo có giống lời nói của con người hay không. Với âm nhạc, người ta phát hiện ra rằng “phần tiếp theo” của phần được cung cấp cho đầu vào có chất lượng vượt trội hơn nhiều so với tất cả các trình tạo nhạc hiện tại từ đầu, chẳng hạn như JukeBox. Với một gợi ý ở đầu vào, AI tiếp tục âm nhạc tốt hơn đáng kể.
Những người đánh giá con người đã nghe các mẫu âm thanh để xác nhận kết quả. Họ xác định xem họ đang nghe thấy phần tiếp theo thực sự của giọng nói con người đã được ghi lại hay giọng nói nhân tạo do AudioLM tạo ra. Dữ liệu của họ cho thấy tỷ lệ thành công là 51.2%. Do đó, người nghe bình thường sẽ gặp khó khăn trong việc phân biệt giữa lời nói do AudioLM tạo ra và lời nói thực tế của con người.
Công nghệ chuyển văn bản thành nhạc có làm thay đổi ngành kinh doanh âm nhạc không?
Trình tạo văn bản thành nhạc dựa trên API Mubert gần đây đã được công bố bởi một mô hình AI khác, Mubert. Mubert tạo ra một nhóm âm thanh khác nhau cho mỗi yêu cầu bạn gửi. Khả năng lặp lại thực sự rất mong manh. Âm nhạc được tạo ra khi có yêu cầu; nó không được lấy từ cơ sở dữ liệu các giai điệu đã hoàn thành. Thật sự làm sao sáng tạo âm nhạc này là một câu hỏi phổ biến.
Âm thanh được chọn trước khi tạo. Cả dấu nhắc đầu vào và thẻ Mubert API đều được mã hóa thành vectơ không gian tiềm ẩn của mạng thần kinh biến áp. Vectơ thẻ gần nhất cho mỗi truy vấn sau đó được chọn và các thẻ đi kèm được truyền tới API của chúng tôi để tạo nhạc. Không có mạng thần kinh nào được sử dụng để tạo ra bất kỳ âm thanh nào (các vòng lặp riêng biệt cho âm trầm, âm dẫn, v.v.); tất cả âm thanh đều do nhạc sĩ và nhà thiết kế âm thanh tạo ra.
Bước quan trọng tiếp theo của Mubert là lấy các mục từ thế giới hiện tại, chẳng hạn như ảnh, phim, kịch bản và bản trình bày, đồng thời tạo ra âm nhạc của thế giới xung quanh bạn.
Đây là những gì bạn có thể nhận được bằng cách liều lĩnh đặt lời nhắc văn bản vào miệng của Mubert AI âm nhạc:
Đây là giai đoạn ban đầu trong quá trình xây dựng một thuật toán tạo phức tạp và chính xác hơn, nhưng điều này sẽ tốn thời gian và tiền bạc.
Tuy nhiên, công nghệ chuyển văn bản thành nhạc đã có sẵn, vì vậy bạn có thể tạo hàng loạt anbom bằng cách tắt “dấu nhắc đầu vào” cho “viết một tập lệnh nhắc ngẫu nhiên”. Có vẻ như các nghệ sĩ không còn cần thiết nữa.
Đọc thêm các tin liên quan:
Từ chối trách nhiệm
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.
Xem thêm bài viếtDamir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.