AI Startup MyShell Merilis Algoritma OpenVoice untuk Kloning Suara yang Tepat
Singkatnya
Startup AI Kanada, MyShell, mengumumkan bahwa mereka telah menjadikan algoritma OpenVoice sebagai sumber terbuka untuk kloning suara instan.
Pengucap, Voicemod dan ElevenLab – ketiga startup ini memiliki satu kesamaan – mereka semua menyediakan algoritma dan perangkat lunak AI untuk membuat klon suara. Sekarang, pemain baru, startup AI Kanada Shell saya mengumumkan bahwa mereka telah menjadikan algoritma OpenVoice sebagai sumber terbuka untuk kloning suara instan.
MyShell membagikan pembaruan pada platform media sosial X dan berkata, “Kloningkan suara dengan presisi yang tak tertandingi, dengan kontrol nada yang terperinci, mulai dari emosi hingga aksen, ritme, jeda, dan intonasi, hanya dengan menggunakan klip audio kecil.”
Melalui kolaborasi ini, para peneliti dari MIT, MyShell.ai, dan Tsinghua University meluncurkan OpenVoice, yang dapat mereplikasi suara pembicara dan menghasilkan ucapan di berbagai bahasa, hanya menggunakan cuplikan audio singkat dari sumber aslinya. Ini juga menangkap nada dan warna unik suara pembicara.
Menurut perusahaan, algoritme tersebut menambahkan elemen gaya penting seperti emosi, aksen, ritme, jeda, dan intonasi. Elemen-elemen ini penting untuk membuat pembicaraan terdengar nyata dan menciptakan percakapan yang menarik. Ini membantu menghindari suara membosankan yang sering Anda dapatkan dengan text-to-speech biasa.
Cara Kerja Model AI Kloning Suara
Di sebuah telaahan, OpenVoice berbagi metodologi di balik AI kloning suaranya. OpenVoice terdiri dari dua yang berbeda Model AI: model text-to-speech (TTS) dan “konverter nada”.
Model ini dapat mengelola parameter gaya dan bahasa, dan telah menjalani “pelatihan menggunakan 30,000 kalimat” dari bahasa Inggris (dalam aksen Amerika dan Inggris), penutur bahasa Mandarin dan Jepang. Pelatihan tersebut melibatkan pelabelan sampel berdasarkan emosi yang diungkapkan, dan model mempelajari intonasi, ritme, dan jeda dari klip audio ini.
Di sisi lain, model konverter nada dilatih pada kumpulan data luas yang berisi lebih dari 300,000 sampel audio dari lebih dari 20,000 speaker berbeda. Dalam kedua kasus tersebut, audio ucapan manusia diubah menjadi fonem – bunyi spesifik yang membedakan kata – dan direpresentasikan menggunakan penyematan vektor.
Model TTS, menggunakan “speaker dasar”, digabungkan dengan nada yang berasal dari rekaman audio pengguna dalam proses pelatihan. Bersama-sama, kedua model ini dapat meniru suara pengguna dan mengubah warna nada – ekspresi emosional yang disampaikan dalam teks lisan.
Startup ini didirikan pada tahun 2023. Tahun lalu, MyShell mengumpulkan dana awal sebesar $5.6 juta, dipimpin oleh INCE Capital, dan melibatkan partisipasi investor terkemuka seperti Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC, dan OP Crypto, antara lain.
Menurut perusahaan, pendanaan tersebut akan membantu kemajuan perusahaan Model AI, pembuatan Creator Studio yang disesuaikan untuk aplikasi asli AI, dan pembentukan ekosistem pembuat konten yang dinamis dalam bidang teknologi blockchain.
Penolakan tanggung jawab
Sejalan dengan Percayai pedoman Proyek, harap dicatat bahwa informasi yang diberikan pada halaman ini tidak dimaksudkan untuk dan tidak boleh ditafsirkan sebagai nasihat hukum, pajak, investasi, keuangan, atau bentuk nasihat lainnya. Penting untuk hanya menginvestasikan jumlah yang mampu Anda tanggung kerugiannya dan mencari nasihat keuangan independen jika Anda ragu. Untuk informasi lebih lanjut, kami menyarankan untuk merujuk pada syarat dan ketentuan serta halaman bantuan dan dukungan yang disediakan oleh penerbit atau pengiklan. MetaversePost berkomitmen terhadap pelaporan yang akurat dan tidak memihak, namun kondisi pasar dapat berubah tanpa pemberitahuan.
Tentang Penulis
Kumar adalah Jurnalis Teknologi berpengalaman dengan spesialisasi dalam persimpangan dinamis AI/ML, teknologi pemasaran, dan bidang baru seperti kripto, blockchain, dan NFTS. Dengan pengalaman lebih dari 3 tahun di industri ini, Kumar telah memiliki rekam jejak yang terbukti dalam menyusun narasi yang menarik, melakukan wawancara yang mendalam, dan memberikan wawasan yang komprehensif. Keahlian Kumar terletak pada produksi konten berdampak tinggi, termasuk artikel, laporan, dan publikasi penelitian untuk platform industri terkemuka. Dengan keahlian unik yang menggabungkan pengetahuan teknis dan penyampaian cerita, Kumar unggul dalam mengkomunikasikan konsep teknologi yang kompleks kepada beragam audiens dengan cara yang jelas dan menarik.
lebih artikelKumar adalah Jurnalis Teknologi berpengalaman dengan spesialisasi dalam persimpangan dinamis AI/ML, teknologi pemasaran, dan bidang baru seperti kripto, blockchain, dan NFTS. Dengan pengalaman lebih dari 3 tahun di industri ini, Kumar telah memiliki rekam jejak yang terbukti dalam menyusun narasi yang menarik, melakukan wawancara yang mendalam, dan memberikan wawasan yang komprehensif. Keahlian Kumar terletak pada produksi konten berdampak tinggi, termasuk artikel, laporan, dan publikasi penelitian untuk platform industri terkemuka. Dengan keahlian unik yang menggabungkan pengetahuan teknis dan penyampaian cerita, Kumar unggul dalam mengkomunikasikan konsep teknologi yang kompleks kepada beragam audiens dengan cara yang jelas dan menarik.