Laporan berita SMW Teknologi
30 Mei 2023

SoundStorm: Google Meluncurkan Alat AI yang Mengerikan yang Mampu Replikasi Suara Real-Time

Singkatnya

Google telah memperkenalkan SoundStorm, model mutakhir untuk pembuatan audio yang efisien dan non-autoregresif.

Ini menggunakan perhatian dua arah dan decoding paralel berbasis kepercayaan untuk menghasilkan audio berkualitas tinggi sambil secara signifikan mengurangi waktu pembuatan.

Ia juga memiliki kemampuan untuk mensintesis dialog alami.

Google telah memperkenalkan terobosan terbarunya dalam teknologi kecerdasan buatan dengan Badai Suara, model mutakhir untuk pembuatan audio yang efisien dan non-autoregresif. Dengan kemampuan untuk mensintesis dialog dengan suara yang berbeda, SoundStorm membuka kemungkinan baru untuk aplikasi seperti menghasilkan konten audio dari teks tertulis dan membuat podcast realistis.

SoundStorm: Google Meluncurkan Alat AI yang Mengerikan yang Mampu Replikasi Suara Real-Time
@Midjourney

Tidak seperti pendahulunya AudioLM, SoundStorm menggunakan arsitektur baru yang menghasilkan audio dalam potongan 30 detik, meningkatkan efisiensi. Dengan memanfaatkan perhatian dua arah dan decoding paralel berbasis kepercayaan, model ini menghasilkan audio berkualitas tinggi sekaligus mengurangi waktu produksi secara signifikan. Pada perangkat keras TPU-v4 Google, SoundStorm dapat menghasilkan audio 30 detik hanya dalam 0.5 detik, menandai peningkatan kecepatan yang substansial.

Pelatihan SoundStorm dilakukan dengan menggunakan kumpulan data besar berisi 100,000 jam dialog, memastikan pemahaman yang kuat tentang pola bahasa lisan. Model ini mencapai konsistensi suara dan kondisi akustik yang mengesankan sambil mempertahankan kualitas audio yang dicapai oleh AudioLM. Terobosan ini membuat SoundStorm dua kali lipat lebih cepat dari pendahulunya, menunjukkan potensinya untuk menghasilkan audio yang dapat diskalakan.

Salah satu kemampuan utama SoundStorm adalah kemampuannya untuk mensintesis dialog alami dengan memanfaatkan tahap pemodelan teks-ke-semantik SPEAR-TTS. Dengan menyediakan transkrip dengan pergantian speaker dan perintah suara singkat, pengguna dapat mengontrol konten yang diucapkan dan suara dari speaker. Selama pengujian, SoundStorm mendemonstrasikan kemampuan untuk mensintesis segmen dialog 30 detik hanya dalam 2 detik pada satu TPU-v4, menunjukkan efisiensi dan keserbagunaannya.

Prompt Suara

Dialog Sintesis

Jika dibandingkan dengan baseline standar, audio yang dihasilkan oleh SoundStorm memiliki kualitas yang setara dengan AudioLM dan menunjukkan konsistensi dan integritas akustik yang unggul. Khususnya, saat diminta untuk memberikan contoh ucapan, model ini mempertahankan suara pembicara dengan akurasi yang luar biasa, sangat meningkatkan kemampuannya untuk menghasilkan dialog yang nyata.

Meskipun kemampuan SoundStorm luar biasa, penting untuk mengenali dan memecahkan kemungkinan tersebut etika keprihatinan. Data pelatihan untuk algoritme mungkin menimbulkan bias terkait aksen dan fitur suara. Kemampuan meniru suara bisa disalahgunakan peniruan atau untuk menghindari identifikasi biometrik. Google menggarisbawahi pentingnya menerapkan perlindungan untuk mencegah penyalahgunaan tersebut dan meyakinkan kemampuan deteksi audio yang dibuat melalui pengklasifikasi khusus.

Prinsip AI etis Google mendorong upaya berkelanjutannya untuk mengatasi potensi bahaya dan kendala. Organisasi menyadari perlunya melakukan studi menyeluruh atas data pelatihan dan implikasinya terhadap keluaran model. Mereka juga berencana untuk menyelidiki pendekatan tambahan, seperti audio watermarking, untuk mendeteksi ucapan yang disintesis untuk memanfaatkan teknologi ini secara etis.

  • SoundStorm adalah langkah maju yang besar dalam produksi audio bertenaga AI, menyediakan representasi audio turunan codec audio saraf berkualitas tinggi dan efisien. Google mengharapkan memori yang lebih rendah dan kebutuhan pemrosesan SoundStorm akan membuat penelitian pembuatan audio lebih mudah diakses oleh komunitas yang lebih luas. Google tetap berdedikasi untuk melestarikan praktik AI yang bertanggung jawab dan memastikan penggunaan SoundStorm yang aman dan bertanggung jawab serta terobosan yang sebanding di lapangan seiring perkembangan teknologi.
  • LEMBAH, model text-to-speech (TTS) terbaru dari Microsoft, merupakan langkah maju yang besar dalam meningkatkan cara sistem ini menghasilkan suara. VALL-E adalah model TTS berdasarkan transformer yang dapat menghasilkan ucapan dalam suara apa pun setelah hanya mendengar sampel tiga detik dari suara tersebut. Ini adalah kemajuan besar dibandingkan model sebelumnya, yang membutuhkan periode pelatihan yang jauh lebih lama untuk mengembangkan suara baru.

Baca lebih lanjut tentang AI:

Penolakan tanggung jawab

Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.

Tentang Penulis

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

lebih artikel
Damir Yalalov
Damir Yalalov

Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah. 

Hari Hukuman Tiba: Nasib CZ Digantung Saat Pengadilan AS Mempertimbangkan Permohonan DOJ

Changpeng Zhao siap menghadapi hukuman di pengadilan AS di Seattle hari ini.

Tahu lebih banyak

Pendiri Dompet Samourai Dituduh Memfasilitasi $2 Miliar dalam Penawaran Darknet

Kekhawatiran para pendiri Samourai Wallet menunjukkan kemunduran besar bagi industri ini, yang menggarisbawahi ...

Tahu lebih banyak
Bergabunglah dengan Komunitas Teknologi Inovatif Kami
Baca Selengkapnya
Baca lebih lanjut
Pantera Capital Berinvestasi di TON Blockchain, Menyatakan Keyakinan Terhadap Potensi Telegram Untuk Memperluas Aksesibilitas Kripto
Bisnis Laporan berita Teknologi
Pantera Capital Berinvestasi di TON Blockchain, Menyatakan Keyakinan Terhadap Potensi Telegram Untuk Memperluas Aksesibilitas Kripto
2 Mei 2024
Mitosis Mengumpulkan Pendanaan $7M Dari Amber Group Dan Foresight Ventures Untuk Memajukan Protokol Likuiditas Modularnya
Bisnis Laporan berita Teknologi
Mitosis Mengumpulkan Pendanaan $7M Dari Amber Group Dan Foresight Ventures Untuk Memajukan Protokol Likuiditas Modularnya
2 Mei 2024
Galxe Bermitra Dengan Jambo Untuk Memperluas Aksesibilitas Global Ke Web3
Bisnis Laporan berita Teknologi
Galxe Bermitra Dengan Jambo Untuk Memperluas Aksesibilitas Global Ke Web3
2 Mei 2024
Med-Gemini Google Siap Memberikan Keunggulan GPT-4 Dengan Kinerja Unggul dalam Pelayanan Kesehatan
AI Wiki Berita Perangkat lunak Teknologi
Med-Gemini Google Siap Memberikan Keunggulan GPT-4 Dengan Kinerja Unggul dalam Pelayanan Kesehatan
2 Mei 2024