Naujienų ataskaita Technologija
Sausis 03, 2024

AI paleisties „MyShell“ išleido „OpenVoice“ algoritmą, skirtą tiksliam balso klonavimui

Trumpai

Kanados AI startuolis „MyShell“ paskelbė atviro kodo „OpenVoice“ algoritmą, skirtą momentiniam balso klonavimui.

AI paleisties „MyShell“ išleido „OpenVoice“ algoritmą, skirtą tiksliam balso klonavimui

Respeecher, Voicemod ir ElevenLabs – visi trys startuoliai turi vieną bendrą bruožą – visi jie teikia algoritmus ir AI programinę įrangą balso klonams kurti. Dabar naujas žaidėjas, Kanados AI startuolis MyShell paskelbė, kad turi atvirojo kodo „OpenVoice“ algoritmą momentiniam balso klonavimui.

„MyShell“ bendrino atnaujinimą socialinės žiniasklaidos platforma X ir pasakė: „Klonuokite balsus neprilygstamai tiksliai, tiksliai valdydami toną, nuo emocijų iki akcento, ritmo, pauzių ir intonacijos, naudodami tik nedidelį garso įrašą“.

Bendradarbiaudami MIT, MyShell.ai ir Tsinghua universiteto mokslininkai pristatė „OpenVoice“, kuri gali atkartoti kalbėtojo balsą ir generuoti kalbą kelių kalbų, naudojant tik trumpą garso fragmentą iš pirminio šaltinio. Jis taip pat užfiksuoja unikalų kalbėtojo balso toną ir spalvą.

Pasak bendrovės, algoritmas prideda svarbių stilistinių elementų, tokių kaip emocijos, akcentas, ritmas, pauzės ir intonacija. Šie elementai yra labai svarbūs norint, kad kalba skambėtų tikroviškai ir užmegztų įdomius pokalbius. Tai padeda išvengti nuobodaus garso, kurį dažnai girdite naudojant įprastą tekstą į kalbą.

Kaip veikia balso klonavimo AI modelis

A Darbe„OpenVoice“ pasidalijo balso klonavimo AI metodika. „OpenVoice“ susideda iš dviejų skirtingų AI modeliai: teksto į kalbą (TTS) modelis ir „tonų keitiklis“.

Modelis gali valdyti stiliaus parametrus ir kalbas, taip pat buvo „apmokytas naudojant 30,000 XNUMX sakinių“ iš anglų (ir amerikietiško, ir britiško akcento), kinų ir japonų kalbų. Mokymai apėmė pavyzdžių žymėjimą pagal išreikštas emocijas, o modelis išmoko intonaciją, ritmą ir pauzes iš šių garso klipų.

Kita vertus, tonų keitiklio modelis buvo parengtas naudojant didžiulį duomenų rinkinį, kuriame buvo daugiau nei 300,000 20,000 garso pavyzdžių iš daugiau nei XNUMX XNUMX skirtingų garsiakalbių. Abiem atvejais žmogaus kalbos garsas buvo paverstas fonemomis – specifiniais garsais, skiriančiais žodžius – ir vaizduojamas naudojant vektorinius įterpimus.

TTS modelis, naudojant „pagrindinį garsiakalbį“, derinamas su tonu, gautu iš vartotojo įrašyto garso mokymo procese. Kartu šie du modeliai gali atkartoti vartotojo balsą ir modifikuoti tono spalvą – emocinę išraišką, perteikiamą sakytiniame tekste.

Startuolis buvo įkurtas 2023 m. Praėjusiais metais „MyShell“ pritraukė 5.6 mln.

Bendrovės teigimu, finansavimas padės plėtoti nuosavybę AI modeliai, Kūrėjų studijos, pritaikytos dirbtinio intelekto programoms, sukūrimas ir gyvybingos kūrėjų ekosistemos sukūrimas blokų grandinės technologijos srityje.

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Kumaras yra patyręs technologijų žurnalistas, kurio specializacija yra dinamiškos AI/ML sankirtos, rinkodaros technologijos ir naujos sritys, tokios kaip kriptovaliutos, blokų grandinės ir NFTs. Turėdamas daugiau nei 3 metų patirtį šioje pramonėje, Kumaras sukūrė įtikinamus pasakojimus, veda įžvalgius interviu ir pateikia išsamias įžvalgas. „Kumar“ patirtis yra susijusi su didelio poveikio turinio kūrimu, įskaitant straipsnius, ataskaitas ir mokslinių tyrimų publikacijas žinomoms pramonės platformoms. Turėdamas unikalų įgūdžių rinkinį, kuriame derinamos techninės žinios ir pasakojimas, Kumaras puikiai perteikia sudėtingas technologines koncepcijas įvairioms auditorijoms aiškiai ir patraukliai.

Daugiau straipsnių
Kumaras Gandharvas
Kumaras Gandharvas

Kumaras yra patyręs technologijų žurnalistas, kurio specializacija yra dinamiškos AI/ML sankirtos, rinkodaros technologijos ir naujos sritys, tokios kaip kriptovaliutos, blokų grandinės ir NFTs. Turėdamas daugiau nei 3 metų patirtį šioje pramonėje, Kumaras sukūrė įtikinamus pasakojimus, veda įžvalgius interviu ir pateikia išsamias įžvalgas. „Kumar“ patirtis yra susijusi su didelio poveikio turinio kūrimu, įskaitant straipsnius, ataskaitas ir mokslinių tyrimų publikacijas žinomoms pramonės platformoms. Turėdamas unikalų įgūdžių rinkinį, kuriame derinamos techninės žinios ir pasakojimas, Kumaras puikiai perteikia sudėtingas technologines koncepcijas įvairioms auditorijoms aiškiai ir patraukliai.

Hot Stories
Prisijunkite prie mūsų naujienlaiškio.
Paskutinės naujienos

Institucinis apetitas Bitcoin ETF atžvilgiu auga dėl nepastovumo

13F paraiškų atskleidimas atskleidžia žymius institucinius investuotojus, kurie naudojasi Bitcoin ETF, o tai rodo, kad vis labiau pritariama...

Žinoti daugiau

Ateina nuosprendžio paskelbimo diena: CZ likimas subalansuotas, nes JAV teismas svarsto DOJ prašymą

Changpeng Zhao šiandien laukia nuosprendžio JAV teisme Sietle.

Žinoti daugiau
Prisijunkite prie mūsų naujoviškų technologijų bendruomenės
Skaityti daugiau
Skaityti daugiau
„NuLink“ paleidžiama „Bybit“. Web3 IDO platforma. Prenumeratos etapas pratęsiamas iki gegužės 13 d
rinkos Naujienų ataskaita Technologija
„NuLink“ paleidžiama „Bybit“. Web3 IDO platforma. Prenumeratos etapas pratęsiamas iki gegužės 13 d
Gali 9, 2024
UXLINK ir Binance bendradarbiauja kurdami naują kampaniją, siūlydami vartotojams 20 mln. UXUY taškų ir Airdrop Apdovanojimai
rinkos Naujienų ataskaita Technologija
UXLINK ir Binance bendradarbiauja kurdami naują kampaniją, siūlydami vartotojams 20 mln. UXUY taškų ir Airdrop Apdovanojimai
Gali 9, 2024
„Side Protocol“ paleidžia skatinamąjį testavimo tinklą ir pristato vidinių taškų sistemą, leidžiančią vartotojams uždirbti šalutinių taškų
rinkos Naujienų ataskaita Technologija
„Side Protocol“ paleidžia skatinamąjį testavimo tinklą ir pristato vidinių taškų sistemą, leidžiančią vartotojams uždirbti šalutinių taškų
Gali 9, 2024
Web3 ir kriptovaliutų įvykiai 2024 m. gegužės mėn.: naujų technologijų ir naujų tendencijų tyrinėjimas blokų grandinėje ir DeFi
Virškinimas Atsakingas verslas rinkos Technologija
Web3 ir kriptovaliutų įvykiai 2024 m. gegužės mėn.: naujų technologijų ir naujų tendencijų tyrinėjimas blokų grandinėje ir DeFi
Gali 9, 2024
CRYPTOMERIA LABS PTE. LTD.