MusicLM: một mô hình AI chuyển văn bản thành nhạc và hình ảnh thành nhạc mới của Google
Tóm lại
Google giới thiệu MusicLM, một mô hình tạo nhạc có độ trung thực cao từ các mô tả văn bản.
MusicLM có thể được điều chỉnh trên cả văn bản và giai điệu ở chỗ nó có thể biến đổi giai điệu huýt sáo và ngân nga theo phong cách được mô tả trong chú thích văn bản.
Mô hình có thể tạo nhạc ở nhiều thể loại khác nhau, bao gồm cổ điển, jazz và rock.
Google giới thiệu MusicLM, một mô hình để tạo nhạc có độ trung thực cao từ các mô tả văn bản, chẳng hạn như “giai điệu vĩ cầm êm dịu được hỗ trợ bởi một đoạn riff guitar méo mó”. MusicLM đưa ra quá trình tạo nhạc có điều kiện dưới dạng tác vụ mô hình hóa trình tự theo trình tự có thứ bậc và nó tạo ra âm nhạc ở 24 kHz duy trì nhất quán trong vài phút.
Các thử nghiệm của Google cho thấy MusicLM vượt trội so với các hệ thống trước đó, cả về chất lượng âm thanh và việc tuân thủ mô tả văn bản. Hơn nữa, nó chứng tỏ rằng MusicLM có thể được điều chỉnh trên cả văn bản và giai điệu ở chỗ nó có thể biến đổi các giai điệu huýt sáo và ngân nga theo phong cách được mô tả trong chú thích văn bản. Để hỗ trợ nghiên cứu trong tương lai, chúng tôi phát hành công khai MusicCaps, một bộ dữ liệu bao gồm 5.5 nghìn cặp văn bản nhạc với mô tả văn bản đa dạng thức do chuyên gia con người cung cấp.
Bài viết liên quan: Chuyển văn bản thành 3D: Google đã phát triển một mạng nơ-ron tạo mô hình 3D từ các mô tả văn bản |
Mô hình MusicLM đã được đào tạo trên một tập hợp lớn các bản nhạc, điều này cho phép AI tìm hiểu cấu trúc của âm nhạc. Mô hình có thể tạo nhạc ở nhiều thể loại khác nhau, bao gồm cổ điển, jazz và rock. Ngoài ra, mô hình AI có thể tạo ra các tác phẩm mới, nguyên bản.
Mô hình MusicLM là một bước phát triển quan trọng trong lĩnh vực âm nhạc do AI tạo ra. Mô hình này đại diện cho một bước tiến đáng kể so với các mô hình trước đó, vốn chỉ giới hạn ở những đoạn nhạc ngắn hơn hoặc chỉ có khả năng tạo ra những giai điệu đơn giản. Mô hình mới mở ra khả năng sử dụng AI để tạo ra những bản nhạc dài và phức tạp, có thể được sử dụng trong phim, trò chơi điện tử hoặc các phương tiện khác.
Mô hình AI mới có thể tạo ra bản nhạc dài các thế hệ lên đến năm phút.
Bài viết liên quan: Stable Diffusion có thể tạo nhạc mới bằng cách tạo phổ dựa trên văn bản |
Mô hình AI có thể tạo nhạc bằng phụ đề từ trò chơi và phim.
Ngoài ra, mô hình AI có thể tạo nhạc bằng cách sử dụng hình ảnh làm đầu vào.
Đọc thêm về AI trong ngành công nghiệp âm nhạc:
Từ chối trách nhiệm
Phù hợp với Hướng dẫn của Dự án Tin cậy, xin lưu ý rằng thông tin được cung cấp trên trang này không nhằm mục đích và không được hiểu là tư vấn pháp lý, thuế, đầu tư, tài chính hoặc bất kỳ hình thức tư vấn nào khác. Điều quan trọng là chỉ đầu tư những gì bạn có thể đủ khả năng để mất và tìm kiếm lời khuyên tài chính độc lập nếu bạn có bất kỳ nghi ngờ nào. Để biết thêm thông tin, chúng tôi khuyên bạn nên tham khảo các điều khoản và điều kiện cũng như các trang trợ giúp và hỗ trợ do nhà phát hành hoặc nhà quảng cáo cung cấp. MetaversePost cam kết báo cáo chính xác, không thiên vị nhưng điều kiện thị trường có thể thay đổi mà không cần thông báo trước.
Giới thiệu về Tác giả
Damir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.
Xem thêm bài viếtDamir là trưởng nhóm, quản lý sản phẩm và biên tập viên tại Metaverse Post, bao gồm các chủ đề như AI/ML, AGI, LLMs, Metaverse và Web3-các lĩnh vực liên quan. Các bài báo của anh ấy thu hút một lượng lớn độc giả với hơn một triệu người dùng mỗi tháng. Anh ấy có vẻ là một chuyên gia với 10 năm kinh nghiệm về SEO và tiếp thị kỹ thuật số. Damir đã được đề cập trong Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto và các ấn phẩm khác. Anh đi lại giữa Các Tiểu vương quốc Ả Rập Thống nhất, Thổ Nhĩ Kỳ, Nga và CIS với tư cách là một người du mục kỹ thuật số. Damir đã có bằng cử nhân vật lý, bằng cấp mà anh tin rằng đã mang lại cho anh những kỹ năng tư duy phản biện cần thiết để thành công trong bối cảnh luôn thay đổi của Internet.