Google Memperkenalkan AudioPaLM, Model Bahasa AI yang Kuat untuk Generasi Pidato
Singkatnya
AudioPaLM adalah model bahasa canggih yang dikembangkan oleh Google yang menggabungkan model berbasis teks dan berbasis ucapan untuk pemrosesan ucapan dan teks yang lancar.
Ini mempertahankan informasi paralinguistik dan mengungguli sistem yang ada dalam tugas terjemahan ucapan.
AudioPaLM dapat menerjemahkan bahasa beraksen dan melakukan transfer suara untuk terjemahan ucapan ke ucapan.
Google telah meluncurkan model bahasa yang disebut AudioPaLM, yang menggabungkan model bahasa berbasis teks dan berbasis ucapan untuk memproses dan menghasilkan ucapan dan teks dengan lancar. Dengan menggabungkan kemampuan dari Palem-2 dan AudioLM, AudioPaLM menawarkan arsitektur multimodal terpadu yang membuka berbagai aplikasi, termasuk pengenalan ucapan dan terjemahan ucapan ke ucapan.
Salah satu fitur penting dari AudioPaLM adalah kemampuannya untuk mempertahankan informasi paralinguistik seperti identitas dan intonasi pembicara, berkat pengaruh AudioLM. Pada saat yang sama, ini memanfaatkan pengetahuan linguistik yang ditemukan dalam model bahasa berbasis teks seperti PaLM-2. Dengan menginisialisasi AudioPaLM dengan bobot model bahasa besar khusus teks, model tersebut unggul dalam pemrosesan ucapan, memanfaatkan data pelatihan teks ekstensif yang digunakan dalam prapelatihan.
Kemampuan AudioPaLM yang luar biasa telah didemonstrasikan melalui berbagai percobaan. Ini telah mengungguli sistem yang ada dalam tugas terjemahan ucapan dan menampilkan kemampuan untuk melakukan zero-shot terjemahan ucapan-ke-teks untuk bahasa yang tidak ditemui selama pelatihan.
Selain itu, AudioPaLM menunjukkan fitur model bahasa audio dengan mentransfer suara lintas bahasa berdasarkan petunjuk lisan singkat.
Google telah membuatnya contoh kemampuan AudioPaLM tersedia untuk eksplorasi. Kemampuan model untuk menerjemahkan bahasa dengan aksen yang berbeda, seperti Italia dan Jerman, telah menarik perhatian para peneliti dan pengguna. Selain itu, kemampuannya dalam melakukan transfer suara untuk terjemahan ucapan-ke-ucapan membedakannya dari baseline yang ada, seperti yang dikonfirmasi oleh metrik otomatis dan evaluator manusia.
Modelnya sangat pandai menerjemahkan bahasa dari audio ke audio dalam bahasa lain, menjaga suara dan emosi seseorang. Menariknya, saat menerjemahkan beberapa bahasa seperti Italia dan Jerman, model tersebut memiliki aksen yang mencolok, dan saat menerjemahkan bahasa lain, misalnya bahasa Prancis, ia berbicara dengan aksen Amerika yang sempurna.
Baca lebih lanjut tentang AI:
Penolakan tanggung jawab
Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.
Tentang Penulis
Damir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.
lebih artikelDamir adalah pemimpin tim, manajer produk, dan editor di Metaverse Post, mencakup topik seperti AI/ML, AGI, LLM, Metaverse, dan Web3-bidang terkait. Artikelnya menarik lebih dari satu juta pengguna setiap bulan. Dia tampaknya ahli dengan pengalaman 10 tahun dalam SEO dan pemasaran digital. Damir telah disebutkan dalam Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto, dan publikasi lainnya. Dia melakukan perjalanan antara UEA, Turki, Rusia, dan CIS sebagai pengembara digital. Damir memperoleh gelar sarjana dalam bidang fisika, yang menurutnya telah memberinya keterampilan berpikir kritis yang diperlukan untuk berhasil dalam lanskap internet yang selalu berubah.