AI starta programma MyShell izlaiž OpenVoice algoritmu precīzai balss klonēšanai
Īsumā
Kanādas AI starta uzņēmums MyShell paziņoja, ka ir ieguvis atvērtā koda OpenVoice algoritmu tūlītējai balss klonēšanai.
Respeecher, Voicemod un ElevenLabs – visiem trim jaunizveidotajiem uzņēmumiem ir viena kopīga iezīme – tie visi nodrošina algoritmus un AI programmatūru balss klonu veidošanai. Tagad jauns spēlētājs, Kanādas AI starta uzņēmums MyShell paziņoja, ka ir ieguvis atvērtā pirmkoda OpenVoice algoritmu tūlītējai balss klonēšanai.
MyShell kopīgoja atjauninājumu sociālo mediju platforma X un teica: "Klonējiet balsis ar nepārspējamu precizitāti, ar smalku toņa vadību no emocijām līdz akcentam, ritmam, pauzēm un intonācijai, izmantojot tikai nelielu audio klipu."
Sadarbībā pētnieki no MIT, MyShell.ai un Tsinghua universitātes atklāja OpenVoice, kas var replicēt runātāja balsi un ģenerēt runu vairākas valodas, izmantojot tikai īsu audio fragmentu no sākotnējā avota. Tas arī uztver unikālo runātāja balss toni un krāsu.
Pēc uzņēmuma domām, algoritms pievieno tādus būtiskus stilistiskus elementus kā emocijas, akcents, ritms, pauzes un intonācija. Šie elementi ir ļoti svarīgi, lai runa izklausītos patiesi un izveidotu interesantas sarunas. Tas palīdz izvairīties no garlaicīgas skaņas, ko bieži iegūstat, izmantojot parasto teksta pārvēršanu runā.
Kā darbojas balss klonēšanas AI modelis
Jo pētniecība papīrs, OpenVoice dalījās ar balss klonēšanas AI metodoloģiju. OpenVoice sastāv no diviem atšķirīgiem AI modeļi: teksta pārvēršanas runā (TTS) modelis un "tonu pārveidotājs".
Modelis var pārvaldīt stila parametrus un valodas, un tas ir ticis "apmācīts, izmantojot 30,000 XNUMX teikumus" no angļu (gan ar amerikāņu, gan britu akcentiem), ķīniešu un japāņu valodas runātājiem. Apmācība ietvēra paraugu marķēšanu, pamatojoties uz izteiktajām emocijām, un modele no šiem audio klipiem apguva intonāciju, ritmu un pauzes.
No otras puses, toņu pārveidotāja modelis tika apmācīts, izmantojot plašu datu kopu, kurā bija vairāk nekā 300,000 20,000 audio paraugu no vairāk nekā XNUMX XNUMX dažādiem skaļruņiem. Abos gadījumos cilvēka runas audio tika pārveidots fonēmās — īpašās skaņās, kas atšķir vārdus — un attēlots, izmantojot vektoru iegulšanu.
TTS modelis, izmantojot “pamata skaļruni”, tiek apvienots ar toni, kas iegūts no lietotāja ierakstītā audio apmācības procesā. Kopā šie divi modeļi var atkārtot lietotāja balsi un modificēt toņa krāsu — emocionālo izteiksmi, kas tiek pausta runātajā tekstā.
Jaunuzņēmums tika dibināts 2023. gadā. Pagājušajā gadā MyShell piesaistīja sākuma finansējumu 5.6 miljonu ASV dolāru apmērā, ko vadīja INCE Capital, un tajā piedalījās tādi ievērojami investori kā Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC un OP Crypto.
Pēc uzņēmuma domām, finansējums palīdzēs attīstīt īpašumtiesības AI modeļi, Creator Studio izveide, kas pielāgota mākslīgā intelekta lietotnēm, un dinamiskas satura veidotāju ekosistēmas izveide blokķēdes tehnoloģijas jomā.
Atbildības noraidīšana
Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.
Par Autors
Kumars ir pieredzējis tehnoloģiju žurnālists ar specializāciju AI/ML dinamiskos krustpunktos, mārketinga tehnoloģijās un tādās jaunās jomās kā kriptovalūta, blokķēde un NFTs. Ar vairāk nekā 3 gadu pieredzi šajā nozarē Kumar ir izveidojis pierādītus sasniegumus pārliecinošu stāstījumu veidošanā, ieskatu interviju vadīšanā un visaptverošu ieskatu sniegšanā. Kumar kompetence slēpjas augstas ietekmes satura, tostarp rakstu, ziņojumu un pētījumu publikāciju veidošanā ievērojamām nozares platformām. Ar unikālu prasmju kopumu, kas apvieno tehniskās zināšanas un stāstu stāstīšanu, Kumars izceļas ar sarežģītu tehnoloģisku koncepciju nodošanu dažādām auditorijām skaidrā un saistošā veidā.
Vairāk rakstusKumars ir pieredzējis tehnoloģiju žurnālists ar specializāciju AI/ML dinamiskos krustpunktos, mārketinga tehnoloģijās un tādās jaunās jomās kā kriptovalūta, blokķēde un NFTs. Ar vairāk nekā 3 gadu pieredzi šajā nozarē Kumar ir izveidojis pierādītus sasniegumus pārliecinošu stāstījumu veidošanā, ieskatu interviju vadīšanā un visaptverošu ieskatu sniegšanā. Kumar kompetence slēpjas augstas ietekmes satura, tostarp rakstu, ziņojumu un pētījumu publikāciju veidošanā ievērojamām nozares platformām. Ar unikālu prasmju kopumu, kas apvieno tehniskās zināšanas un stāstu stāstīšanu, Kumars izceļas ar sarežģītu tehnoloģisku koncepciju nodošanu dažādām auditorijām skaidrā un saistošā veidā.