Google AI Mengumumkan AudioLM Penjana Teks-ke-Muzik yang Pertama
Secara ringkas
AudioLM boleh menghasilkan muzik hanya dengan mendengar bunyi
Mubert AI untuk meneruskan pertuturan manusia dan muzik piano
Dengan GPT-3 dan lain-lain, idea AI generatif mempunyai peluang yang baik untuk bergerak ke hadapan. Kami juga menemui konsep mengecat dan mengecat; AI dengan mahir melengkapkan imej sambil mengekalkan tema dan gaya. Bagaimana dengan muzik?
Dan sekali lagi! Memandangkan semua ini adalah berdasarkan model bahasa AI yang mengekalkan makna, hanya menunggu masa sebelum teknologi ini akan digunakan pada muzik. Dan kini masanya telah tiba.
Menurut penyelidikan Google baru-baru ini, rangka kerja baharu untuk pengeluaran audio yang dipanggil AudioLM mungkin diajar untuk mencipta pertuturan realistik dan muzik piano hanya dengan mendengar bunyi. Disebabkan ketekalan jangka panjang dan kesetiaan yang sangat baik, AudioLM mengatasi sistem terdahulu dan memajukan penciptaan audio dengan aplikasi dalam sintesis suara dan muzik berbantukan komputer.
AudioLM daripada Google AI boleh memanjangkan laluan akustik sambil mengekalkan "niat." Sehingga kini, ia telah dilatih untuk meneruskan pertuturan manusia dan muzik piano, berdasarkan sampel data input yang terhad. Semak sampel di bawah.
Kriteria untuk ucapan adalah mudah: Pendengar diminta menilai sama ada sambungan itu terdengar seperti ucapan manusia. Dengan muzik itu, didapati bahawa "sambungan" bahagian yang dibekalkan untuk input adalah jauh lebih baik dari segi kualiti daripada semua penjana muzik semasa dari awal, seperti JukeBox. Dengan cadangan pada input, AI meneruskan muzik dengan lebih baik.
Penilai manusia mendengar sampel audio untuk mengesahkan keputusan. Mereka menentukan sama ada mereka mendengar sambungan sebenar suara manusia yang telah dirakam atau suara buatan yang dihasilkan oleh AudioLM. Data mereka menunjukkan kadar kejayaan 51.2%. Akibatnya, adalah sukar bagi pendengar biasa untuk membezakan antara pertuturan yang dihasilkan oleh AudioLM dan pertuturan manusia sebenar.
Adakah teknologi teks-ke-muzik mengubah perniagaan muzik?
Penjana teks-ke-muzik berdasarkan API Mubert baru-baru ini diumumkan oleh model AI lain, Mubert. Mubert mencipta set bunyi yang berbeza untuk setiap permintaan yang anda hantar. Kemungkinan untuk berulang adalah sangat tipis. Muzik dicipta apabila permintaan dibuat; ia tidak ditarik daripada pangkalan data lagu yang telah siap. Betapa benarnya generatif muzik ini adalah soalan biasa.
Bunyi dipilih sebelum dicipta. Kedua-dua gesaan input dan teg API Mubert dikodkan kepada vektor ruang terpendam rangkaian saraf pengubah. Vektor teg terdekat untuk setiap pertanyaan kemudiannya dipilih dan teg yang disertakan dihantar ke API kami untuk mencipta muzik. Tiada rangkaian saraf digunakan untuk membina mana-mana bunyi (gelung berasingan untuk bes, petunjuk, dsb.); semua bunyi dihasilkan oleh pemuzik dan pereka bunyi.
Langkah penting Mubert seterusnya ialah mengambil item dari dunia semasa, seperti foto, filem, senario dan persembahan serta mencipta muzik dunia di sekeliling anda.
Inilah yang anda boleh perolehi dengan meletakkan gesaan teks secara melulu ke dalam mulut muzikal Mubert AI:
Ini adalah peringkat awal dalam proses membina algoritma penjanaan yang lebih canggih dan tepat, tetapi ini akan mengambil masa dan wang.
Walau bagaimanapun, teknologi teks-ke-muzik sudah tersedia, jadi anda boleh menjana album secara pukal dengan menukar "gesaan input" untuk "tulis skrip gesaan rawak". Nampaknya artis tidak lagi diperlukan.
Baca lebih banyak berita berkaitan:
Penafian
Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.
Tentang Pengarang
Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.
lebih banyak artikelDamir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.