AI paleisties „MyShell“ išleido „OpenVoice“ algoritmą, skirtą tiksliam balso klonavimui
Trumpai
Kanados AI startuolis „MyShell“ paskelbė atviro kodo „OpenVoice“ algoritmą, skirtą momentiniam balso klonavimui.
Respeecher, Voicemod ir ElevenLabs – visi trys startuoliai turi vieną bendrą bruožą – visi jie teikia algoritmus ir AI programinę įrangą balso klonams kurti. Dabar naujas žaidėjas, Kanados AI startuolis MyShell paskelbė, kad turi atvirojo kodo „OpenVoice“ algoritmą momentiniam balso klonavimui.
„MyShell“ bendrino atnaujinimą socialinės žiniasklaidos platforma X ir pasakė: „Klonuokite balsus neprilygstamai tiksliai, tiksliai valdydami toną, nuo emocijų iki akcento, ritmo, pauzių ir intonacijos, naudodami tik nedidelį garso įrašą“.
Bendradarbiaudami MIT, MyShell.ai ir Tsinghua universiteto mokslininkai pristatė „OpenVoice“, kuri gali atkartoti kalbėtojo balsą ir generuoti kalbą kelių kalbų, naudojant tik trumpą garso fragmentą iš pirminio šaltinio. Jis taip pat užfiksuoja unikalų kalbėtojo balso toną ir spalvą.
Pasak bendrovės, algoritmas prideda svarbių stilistinių elementų, tokių kaip emocijos, akcentas, ritmas, pauzės ir intonacija. Šie elementai yra labai svarbūs norint, kad kalba skambėtų tikroviškai ir užmegztų įdomius pokalbius. Tai padeda išvengti nuobodaus garso, kurį dažnai girdite naudojant įprastą tekstą į kalbą.
Kaip veikia balso klonavimo AI modelis
A Darbe„OpenVoice“ pasidalijo balso klonavimo AI metodika. „OpenVoice“ susideda iš dviejų skirtingų AI modeliai: teksto į kalbą (TTS) modelis ir „tonų keitiklis“.
Modelis gali valdyti stiliaus parametrus ir kalbas, taip pat buvo „apmokytas naudojant 30,000 XNUMX sakinių“ iš anglų (ir amerikietiško, ir britiško akcento), kinų ir japonų kalbų. Mokymai apėmė pavyzdžių žymėjimą pagal išreikštas emocijas, o modelis išmoko intonaciją, ritmą ir pauzes iš šių garso klipų.
Kita vertus, tonų keitiklio modelis buvo parengtas naudojant didžiulį duomenų rinkinį, kuriame buvo daugiau nei 300,000 20,000 garso pavyzdžių iš daugiau nei XNUMX XNUMX skirtingų garsiakalbių. Abiem atvejais žmogaus kalbos garsas buvo paverstas fonemomis – specifiniais garsais, skiriančiais žodžius – ir vaizduojamas naudojant vektorinius įterpimus.
TTS modelis, naudojant „pagrindinį garsiakalbį“, derinamas su tonu, gautu iš vartotojo įrašyto garso mokymo procese. Kartu šie du modeliai gali atkartoti vartotojo balsą ir modifikuoti tono spalvą – emocinę išraišką, perteikiamą sakytiniame tekste.
Startuolis buvo įkurtas 2023 m. Praėjusiais metais „MyShell“ pritraukė 5.6 mln.
Bendrovės teigimu, finansavimas padės plėtoti nuosavybę AI modeliai, Kūrėjų studijos, pritaikytos dirbtinio intelekto programoms, sukūrimas ir gyvybingos kūrėjų ekosistemos sukūrimas blokų grandinės technologijos srityje.
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Kumaras yra patyręs technologijų žurnalistas, kurio specializacija yra dinamiškos AI/ML sankirtos, rinkodaros technologijos ir naujos sritys, tokios kaip kriptovaliutos, blokų grandinės ir NFTs. Turėdamas daugiau nei 3 metų patirtį šioje pramonėje, Kumaras sukūrė įtikinamus pasakojimus, veda įžvalgius interviu ir pateikia išsamias įžvalgas. „Kumar“ patirtis yra susijusi su didelio poveikio turinio kūrimu, įskaitant straipsnius, ataskaitas ir mokslinių tyrimų publikacijas žinomoms pramonės platformoms. Turėdamas unikalų įgūdžių rinkinį, kuriame derinamos techninės žinios ir pasakojimas, Kumaras puikiai perteikia sudėtingas technologines koncepcijas įvairioms auditorijoms aiškiai ir patraukliai.
Daugiau straipsniųKumaras yra patyręs technologijų žurnalistas, kurio specializacija yra dinamiškos AI/ML sankirtos, rinkodaros technologijos ir naujos sritys, tokios kaip kriptovaliutos, blokų grandinės ir NFTs. Turėdamas daugiau nei 3 metų patirtį šioje pramonėje, Kumaras sukūrė įtikinamus pasakojimus, veda įžvalgius interviu ir pateikia išsamias įžvalgas. „Kumar“ patirtis yra susijusi su didelio poveikio turinio kūrimu, įskaitant straipsnius, ataskaitas ir mokslinių tyrimų publikacijas žinomoms pramonės platformoms. Turėdamas unikalų įgūdžių rinkinį, kuriame derinamos techninės žinios ir pasakojimas, Kumaras puikiai perteikia sudėtingas technologines koncepcijas įvairioms auditorijoms aiškiai ir patraukliai.