SoundStorm: Google Memperkenalkan Alat AI Mengerikan Mampu Replikasi Suara Masa Nyata
Secara ringkas
Google telah memperkenalkan SoundStorm, model termaju untuk penjanaan audio yang cekap dan tidak autoregresif.
Ia menggunakan perhatian dwiarah dan penyahkodan selari berasaskan keyakinan untuk menjana audio berkualiti tinggi sambil mengurangkan masa penjanaan dengan ketara.
Ia juga mempunyai keupayaan untuk mensintesis dialog semula jadi.
Google telah memperkenalkan penemuan terbarunya dalam teknologi kecerdasan buatan dengan SoundStorm, model termaju untuk penjanaan audio yang cekap dan tidak autoregresif. Dengan kemampuan untuk mensintesis dialog dengan suara yang berbeza, SoundStorm membuka kemungkinan baharu untuk aplikasi seperti menjana kandungan audio daripada teks bertulis dan mencipta podcast realistik.
Berbeza dengan pendahulunya AudioLM, SoundStorm menggunakan seni bina baru yang menjana audio dalam ketulan 30 saat, meningkatkan kecekapan. Dengan menggunakan perhatian dua hala dan penyahkodan selari berasaskan keyakinan, model ini menghasilkan audio berkualiti tinggi sambil mengurangkan masa penjanaan dengan ketara. Pada perkakasan TPU-v4 Google, SoundStorm boleh menjana 30 saat audio dalam masa 0.5 saat sahaja, menandakan peningkatan kelajuan yang ketara.
Latihan SoundStorm telah dijalankan menggunakan set data besar-besaran selama 100,000 jam dialog, memastikan pemahaman yang mantap tentang corak bahasa pertuturan. Model ini mencapai konsistensi yang mengagumkan dalam keadaan suara dan akustik sambil mengekalkan kualiti audio yang dicapai oleh AudioLM. Kejayaan ini menjadikan SoundStorm dua urutan magnitud lebih pantas daripada pendahulunya, menunjukkan potensinya untuk penjanaan audio boleh skala.
Salah satu keupayaan utama SoundStorm ialah keupayaannya untuk mensintesis dialog semula jadi dengan memanfaatkan peringkat pemodelan teks-ke-semantik SPEAR-TTS. Dengan menyediakan transkrip dengan giliran pembesar suara dan gesaan suara pendek, pengguna boleh mengawal kandungan pertuturan dan suara pembesar suara. Semasa ujian, SoundStorm menunjukkan keupayaan untuk mensintesis segmen dialog 30 saat dalam hanya 2 saat pada satu TPU-v4, mempamerkan kecekapan dan serba bolehnya.
Promosi Suara
Dialog yang disintesis
Jika dibandingkan dengan garis dasar standard, audio yang dijana oleh SoundStorm adalah kualiti yang setara dengan AudioLM dan menunjukkan konsistensi yang unggul dan integriti akustik. Terutama, apabila digesa untuk memberikan sampel pertuturan, model itu mengekalkan suara pembesar suara dengan ketepatan yang menakjubkan, meningkatkan kapasitinya untuk menjana dialog seperti hidup.
Walaupun keupayaan SoundStorm adalah luar biasa, adalah penting untuk mengenali dan menyelesaikan kemungkinan kebimbangan etika. Data latihan untuk algoritma mungkin memperkenalkan bias yang berkaitan dengan aksen dan ciri suara. Keupayaan untuk meniru suara boleh disalahgunakan penyamaran atau untuk memintas pengenalan biometrik. Google menggariskan kepentingan meletakkan perlindungan untuk mencegah penyalahgunaan dan memastikan pengesanan audio yang dicipta melalui pengelas khusus.
Prinsip AI beretika Google memacu usaha berterusannya untuk menangani potensi bahaya dan kekangan. Organisasi menyedari keperluan untuk melakukan kajian menyeluruh terhadap data latihan dan implikasi untuk output model. Mereka juga merancang untuk menyiasat pendekatan tambahan, seperti penanda air audio, untuk mengesan pertuturan yang disintesis untuk menggunakan teknologi ini secara beretika.
- SoundStorm ialah satu langkah besar ke hadapan dalam pengeluaran audio dikuasakan AI, menyediakan perwakilan audio terbitan codec audio saraf berkualiti tinggi dan cekap. Google menjangkakan bahawa memori SoundStorm yang lebih rendah dan keperluan pemprosesan akan menjadikan penyelidikan penjanaan audio lebih mudah diakses oleh komuniti yang lebih luas. Google tetap berdedikasi untuk memelihara amalan AI yang bertanggungjawab dan memastikan penggunaan SoundStorm yang selamat dan bertanggungjawab serta penemuan yang setanding dalam bidang ini seiring dengan perkembangan teknologi.
- LEMBAH, model teks-ke-ucapan (TTS) terbaharu Microsoft, merupakan satu langkah besar ke hadapan dalam mempertingkatkan cara sistem ini menjana suara. VALL-E ialah a model TTS berdasarkan transformer yang boleh menjana pertuturan dalam mana-mana suara selepas hanya mendengar sampel tiga saat suara itu. Ini merupakan kemajuan besar berbanding model terdahulu, yang memerlukan tempoh latihan yang jauh lebih lama untuk membangunkan suara baharu.
Baca lebih lanjut mengenai AI:
Penafian
Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.
Tentang Pengarang
Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.
lebih banyak artikelDamir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah.