Ulat sa Balita Teknolohiya
Enero 03, 2024

Ang AI Startup MyShell ay naglabas ng OpenVoice Algorithm para sa Precise Voice Cloning

Sa madaling sabi

Inanunsyo ng Canadian AI startup na MyShell na open-sourced nito ang OpenVoice algorithm nito para sa instant voice cloning.

Ang AI Startup MyShell ay naglabas ng OpenVoice Algorithm para sa Precise Voice Cloning

Tagapagsalita, Voicemod at ElevenLabs – lahat ng tatlong startup ay may isang bagay na karaniwan – lahat sila ay nagbibigay ng mga algorithm at AI software para sa paggawa ng mga voice clone. Ngayon, isang bagong manlalaro, Canadian AI startup MyShell inihayag nitong open-sourced ang OpenVoice algorithm nito para sa instant voice cloning.

Ibinahagi ng MyShell ang update sa platform ng social media X at sinabing, "I-clone ang mga boses na may walang katulad na katumpakan, na may butil-butil na kontrol ng tono, mula sa emosyon hanggang sa impit, ritmo, pag-pause at intonasyon, gamit lang ang isang maliit na audio clip."

Sa ilalim ng pakikipagtulungan, inilabas ng mga mananaliksik mula sa MIT, MyShell.ai at Tsinghua University ang OpenVoice, na maaaring magtiklop ng boses ng isang tagapagsalita at makabuo ng pagsasalita sa maraming wika, gamit lang ang maikling audio snippet mula sa orihinal na pinagmulan. Nakukuha rin nito ang kakaibang tono at kulay ng boses ng nagsasalita.

Ayon sa kumpanya, ang algorithm ay nagdaragdag ng mga mahahalagang elemento ng estilista tulad ng emosyon, tuldik, ritmo, pag-pause at intonasyon. Ang mga elementong ito ay mahalaga para maging totoo ang pagsasalita at lumikha ng mga kawili-wiling pag-uusap. Nakakatulong itong maiwasan ang nakakainip na tunog na madalas mong makuha sa regular na text-to-speech.

Paano Gumagana ang Voice-Cloning AI Model

Sa isang pananaliksik na papel, ibinahagi ng OpenVoice ang pamamaraan sa likod ng voice-cloning AI nito. Ang OpenVoice ay binubuo ng dalawang magkaibang Mga modelo ng AI: isang text-to-speech (TTS) na modelo at isang “tone converter.”

Maaaring pamahalaan ng modelo ang mga parameter ng estilo at wika, at sumailalim sa "pagsasanay gamit ang 30,000 pangungusap" mula sa Ingles (sa parehong mga American at British accent), mga nagsasalita ng Chinese at Japanese. Kasama sa pagsasanay ang paglalagay ng label sa mga sample batay sa ipinahayag na mga emosyon, at natutunan ng modelo ang intonasyon, ritmo, at pag-pause mula sa mga audio clip na ito.

Sa kabilang banda, ang modelo ng tone converter ay sinanay sa isang malawak na dataset ng mahigit 300,000 audio sample mula sa higit sa 20,000 iba't ibang speaker. Sa parehong mga kaso, ang audio ng pagsasalita ng tao ay na-convert sa mga ponema - mga partikular na tunog na nag-iiba ng mga salita - at kinakatawan gamit ang mga vector embeddings.

Ang modelo ng TTS, gamit ang isang "base speaker," ay pinagsama sa tono na nakuha mula sa na-record na audio ng isang user sa proseso ng pagsasanay. Magkasama, maaaring kopyahin ng dalawang modelong ito ang boses ng user at baguhin ang kulay ng tono - ang emosyonal na pagpapahayag na ipinapahayag sa binibigkas na teksto.

Itinatag ang startup noong 2023. Noong nakaraang taon, nakalikom ang MyShell ng $5.6 milyon sa seed funding, sa pangunguna ng INCE Capital, at nakita ang partisipasyon ng mga kilalang mamumuhunan gaya ng Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC at OP Crypto, bukod sa iba pa.

Ayon sa kumpanya, ang pagpopondo ay makakatulong sa pagsulong ng pagmamay-ari Mga modelo ng AI, ang paglikha ng Creator Studio na iniakma para sa AI-native na apps, at ang pagtatatag ng isang makulay na creator ecosystem sa loob ng larangan ng blockchain technology.

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Si Kumar ay isang makaranasang Tech Journalist na may espesyalisasyon sa mga dynamic na intersection ng AI/ML, teknolohiya sa marketing, at mga umuusbong na larangan tulad ng crypto, blockchain, at NFTs. Sa mahigit 3 taong karanasan sa industriya, si Kumar ay nagtatag ng isang napatunayang track record sa paggawa ng mga nakakahimok na salaysay, pagsasagawa ng mga insightful na panayam, at paghahatid ng mga komprehensibong insight. Ang kadalubhasaan ni Kumar ay nakasalalay sa paggawa ng nilalamang may mataas na epekto, kabilang ang mga artikulo, ulat, at mga publikasyong pananaliksik para sa mga kilalang platform ng industriya. Sa isang natatanging hanay ng kasanayan na pinagsasama ang teknikal na kaalaman at pagkukuwento, mahusay si Kumar sa pakikipag-usap ng mga kumplikadong teknolohikal na konsepto sa magkakaibang mga madla sa isang malinaw at nakakaengganyo na paraan.

Mas marami pang artikulo
Kumar Gandarv
Kumar Gandarv

Si Kumar ay isang makaranasang Tech Journalist na may espesyalisasyon sa mga dynamic na intersection ng AI/ML, teknolohiya sa marketing, at mga umuusbong na larangan tulad ng crypto, blockchain, at NFTs. Sa mahigit 3 taong karanasan sa industriya, si Kumar ay nagtatag ng isang napatunayang track record sa paggawa ng mga nakakahimok na salaysay, pagsasagawa ng mga insightful na panayam, at paghahatid ng mga komprehensibong insight. Ang kadalubhasaan ni Kumar ay nakasalalay sa paggawa ng nilalamang may mataas na epekto, kabilang ang mga artikulo, ulat, at mga publikasyong pananaliksik para sa mga kilalang platform ng industriya. Sa isang natatanging hanay ng kasanayan na pinagsasama ang teknikal na kaalaman at pagkukuwento, mahusay si Kumar sa pakikipag-usap ng mga kumplikadong teknolohikal na konsepto sa magkakaibang mga madla sa isang malinaw at nakakaengganyo na paraan.

Hot Stories
Sumali sa Aming Newsletter.
Pinakabagong Balita

Ang Institutional Appetite ay Lumalaki Patungo sa Bitcoin ETFs Sa gitna ng Volatility

Ang mga pagsisiwalat sa pamamagitan ng 13F filing ay nagpapakita ng mga kilalang institusyonal na mamumuhunan na nakikipag-ugnayan sa mga Bitcoin ETF, na binibigyang-diin ang lumalaking pagtanggap ng ...

Malaman Higit Pa

Dumating na ang Araw ng Pagsentensiya: Ang Kapalaran ni CZ ay Nagbabalanse habang Isinasaalang-alang ng Korte ng US ang Panawagan ng DOJ

Si Changpeng Zhao ay handang harapin ang sentensiya sa korte ng US sa Seattle ngayon.

Malaman Higit Pa
Sumali sa Aming Innovative Tech Community
Magbasa Pa
Magbasa nang higit pa
Inilunsad ang NuLink Sa Bybit Web3 IDO Platform. Umaabot ang Yugto ng Subscription Hanggang Mayo 13
markets Ulat sa Balita Teknolohiya
Inilunsad ang NuLink Sa Bybit Web3 IDO Platform. Umaabot ang Yugto ng Subscription Hanggang Mayo 13
Mayo 9, 2024
Nagtutulungan ang UXLINK At Binance Sa Bagong Kampanya, Nag-aalok sa Mga User ng 20M UXUY Points At Airdrop Gantimpala
markets Ulat sa Balita Teknolohiya
Nagtutulungan ang UXLINK At Binance Sa Bagong Kampanya, Nag-aalok sa Mga User ng 20M UXUY Points At Airdrop Gantimpala
Mayo 9, 2024
Ang Side Protocol ay Inilunsad ang Incentivized Testnet At Ipinakilala ang Insider Point System, Nagbibigay-daan sa Mga User na Makakuha ng SIDE Points
markets Ulat sa Balita Teknolohiya
Ang Side Protocol ay Inilunsad ang Incentivized Testnet At Ipinakilala ang Insider Point System, Nagbibigay-daan sa Mga User na Makakuha ng SIDE Points
Mayo 9, 2024
Web3 at Crypto Events noong Mayo 2024: Paggalugad ng mga Bagong Teknolohiya at Umuusbong na Trend sa Blockchain at DeFi
Digest Negosyo markets Teknolohiya
Web3 at Crypto Events noong Mayo 2024: Paggalugad ng mga Bagong Teknolohiya at Umuusbong na Trend sa Blockchain at DeFi
Mayo 9, 2024
CRYPTOMERIA LABS PTE. LTD.