Laporan Berita SMW Teknologi
Semoga 30, 2023

SoundStorm: Google Memperkenalkan Alat AI Mengerikan Mampu Replikasi Suara Masa Nyata

Secara ringkas

Google telah memperkenalkan SoundStorm, model termaju untuk penjanaan audio yang cekap dan tidak autoregresif.

Ia menggunakan perhatian dwiarah dan penyahkodan selari berasaskan keyakinan untuk menjana audio berkualiti tinggi sambil mengurangkan masa penjanaan dengan ketara.

Ia juga mempunyai keupayaan untuk mensintesis dialog semula jadi.

Google telah memperkenalkan penemuan terbarunya dalam teknologi kecerdasan buatan dengan SoundStorm, model termaju untuk penjanaan audio yang cekap dan tidak autoregresif. Dengan kemampuan untuk mensintesis dialog dengan suara yang berbeza, SoundStorm membuka kemungkinan baharu untuk aplikasi seperti menjana kandungan audio daripada teks bertulis dan mencipta podcast realistik.

SoundStorm: Google Memperkenalkan Alat AI Mengerikan Mampu Replikasi Suara Masa Nyata
@Midjourney

Berbeza dengan pendahulunya AudioLM, SoundStorm menggunakan seni bina baru yang menjana audio dalam ketulan 30 saat, meningkatkan kecekapan. Dengan menggunakan perhatian dua hala dan penyahkodan selari berasaskan keyakinan, model ini menghasilkan audio berkualiti tinggi sambil mengurangkan masa penjanaan dengan ketara. Pada perkakasan TPU-v4 Google, SoundStorm boleh menjana 30 saat audio dalam masa 0.5 saat sahaja, menandakan peningkatan kelajuan yang ketara.

Latihan SoundStorm telah dijalankan menggunakan set data besar-besaran selama 100,000 jam dialog, memastikan pemahaman yang mantap tentang corak bahasa pertuturan. Model ini mencapai konsistensi yang mengagumkan dalam keadaan suara dan akustik sambil mengekalkan kualiti audio yang dicapai oleh AudioLM. Kejayaan ini menjadikan SoundStorm dua urutan magnitud lebih pantas daripada pendahulunya, menunjukkan potensinya untuk penjanaan audio boleh skala.

Salah satu keupayaan utama SoundStorm ialah keupayaannya untuk mensintesis dialog semula jadi dengan memanfaatkan peringkat pemodelan teks-ke-semantik SPEAR-TTS. Dengan menyediakan transkrip dengan giliran pembesar suara dan gesaan suara pendek, pengguna boleh mengawal kandungan pertuturan dan suara pembesar suara. Semasa ujian, SoundStorm menunjukkan keupayaan untuk mensintesis segmen dialog 30 saat dalam hanya 2 saat pada satu TPU-v4, mempamerkan kecekapan dan serba bolehnya.

Promosi Suara

Dialog yang disintesis

Jika dibandingkan dengan garis dasar standard, audio yang dijana oleh SoundStorm adalah kualiti yang setara dengan AudioLM dan menunjukkan konsistensi yang unggul dan integriti akustik. Terutama, apabila digesa untuk memberikan sampel pertuturan, model itu mengekalkan suara pembesar suara dengan ketepatan yang menakjubkan, meningkatkan kapasitinya untuk menjana dialog seperti hidup.

Walaupun keupayaan SoundStorm adalah luar biasa, adalah penting untuk mengenali dan menyelesaikan kemungkinan kebimbangan etika. Data latihan untuk algoritma mungkin memperkenalkan bias yang berkaitan dengan aksen dan ciri suara. Keupayaan untuk meniru suara boleh disalahgunakan penyamaran atau untuk memintas pengenalan biometrik. Google menggariskan kepentingan meletakkan perlindungan untuk mencegah penyalahgunaan dan memastikan pengesanan audio yang dicipta melalui pengelas khusus.

Prinsip AI beretika Google memacu usaha berterusannya untuk menangani potensi bahaya dan kekangan. Organisasi menyedari keperluan untuk melakukan kajian menyeluruh terhadap data latihan dan implikasi untuk output model. Mereka juga merancang untuk menyiasat pendekatan tambahan, seperti penanda air audio, untuk mengesan pertuturan yang disintesis untuk menggunakan teknologi ini secara beretika.

  • SoundStorm ialah satu langkah besar ke hadapan dalam pengeluaran audio dikuasakan AI, menyediakan perwakilan audio terbitan codec audio saraf berkualiti tinggi dan cekap. Google menjangkakan bahawa memori SoundStorm yang lebih rendah dan keperluan pemprosesan akan menjadikan penyelidikan penjanaan audio lebih mudah diakses oleh komuniti yang lebih luas. Google tetap berdedikasi untuk memelihara amalan AI yang bertanggungjawab dan memastikan penggunaan SoundStorm yang selamat dan bertanggungjawab serta penemuan yang setanding dalam bidang ini seiring dengan perkembangan teknologi.
  • LEMBAH, model teks-ke-ucapan (TTS) terbaharu Microsoft, merupakan satu langkah besar ke hadapan dalam mempertingkatkan cara sistem ini menjana suara. VALL-E ialah a model TTS berdasarkan transformer yang boleh menjana pertuturan dalam mana-mana suara selepas hanya mendengar sampel tiga saat suara itu. Ini merupakan kemajuan besar berbanding model terdahulu, yang memerlukan tempoh latihan yang jauh lebih lama untuk membangunkan suara baharu.

Baca lebih lanjut mengenai AI:

Penafian

Selaras dengan Garis panduan Projek Amanah, sila ambil perhatian bahawa maklumat yang diberikan pada halaman ini tidak bertujuan untuk menjadi dan tidak seharusnya ditafsirkan sebagai nasihat undang-undang, cukai, pelaburan, kewangan atau sebarang bentuk nasihat lain. Adalah penting untuk hanya melabur apa yang anda mampu kehilangan dan mendapatkan nasihat kewangan bebas jika anda mempunyai sebarang keraguan. Untuk maklumat lanjut, kami mencadangkan merujuk kepada terma dan syarat serta halaman bantuan dan sokongan yang disediakan oleh pengeluar atau pengiklan. MetaversePost komited kepada laporan yang tepat dan tidak berat sebelah, tetapi keadaan pasaran tertakluk kepada perubahan tanpa notis.

Tentang Pengarang

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

lebih banyak artikel
Damir Yalalov
Damir Yalalov

Damir ialah ketua pasukan, pengurus produk dan editor di Metaverse Post, meliputi topik seperti AI/ML, AGI, LLM, Metaverse dan Web3-bidang berkaitan. Artikelnya menarik khalayak besar lebih sejuta pengguna setiap bulan. Dia nampaknya seorang pakar dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebut dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto dan penerbitan lain. Dia mengembara antara UAE, Turki, Rusia dan CIS sebagai nomad digital. Damir memperoleh ijazah sarjana muda dalam fizik, yang dia percaya telah memberikannya kemahiran berfikir kritis yang diperlukan untuk berjaya dalam landskap internet yang sentiasa berubah. 

Hari Penghukuman Tiba: Nasib CZ Bergantung Seimbang apabila Mahkamah AS Mempertimbangkan Rayuan DOJ

Changpeng Zhao bersedia untuk menghadapi hukuman di mahkamah AS di Seattle hari ini.

Mengetahui lebih lanjut

Pengasas Samourai Wallet Dituduh Memudahkan $2B dalam Tawaran Darknet

Kebimbangan pengasas Samourai Wallet mewakili kemunduran yang ketara bagi industri, menekankan ...

Mengetahui lebih lanjut
Sertai Komuniti Teknologi Inovatif Kami
Untuk Lebih Lanjut
Baca lagi
Pantera Capital Melabur Dalam TON Blockchain, Menyatakan Keyakinan Terhadap Potensi Telegram Untuk Meluaskan Kebolehcapaian Kripto
Perniagaan Laporan Berita Teknologi
Pantera Capital Melabur Dalam TON Blockchain, Menyatakan Keyakinan Terhadap Potensi Telegram Untuk Meluaskan Kebolehcapaian Kripto
Semoga 2, 2024
Mitosis Meningkatkan $7 juta Dalam Pembiayaan Daripada Amber Group Dan Foresight Ventures Untuk Memajukan Protokol Kecairan Modularnya
Perniagaan Laporan Berita Teknologi
Mitosis Meningkatkan $7 juta Dalam Pembiayaan Daripada Amber Group Dan Foresight Ventures Untuk Memajukan Protokol Kecairan Modularnya
Semoga 2, 2024
Galxe Bekerjasama Dengan Jambo Untuk Meluaskan Kebolehcapaian Global Kepada Web3
Perniagaan Laporan Berita Teknologi
Galxe Bekerjasama Dengan Jambo Untuk Meluaskan Kebolehcapaian Global Kepada Web3
Semoga 2, 2024
Med-Gemini Google Bersedia untuk Memberi Permulaan kepada GPT-4 Dengan Prestasi Unggulnya dalam Penjagaan Kesihatan
AI Wiki Berita perisian Teknologi
Med-Gemini Google Bersedia untuk Memberi Permulaan kepada GPT-4 Dengan Prestasi Unggulnya dalam Penjagaan Kesihatan
Semoga 2, 2024