AI Startup MyShell avaldab täpse häälekloonimise jaoks OpenVoice'i algoritmi
Põgusalt
Kanada tehisintellekti idufirma MyShell teatas, et on avatud lähtekoodiga OpenVoice'i algoritmi koheseks hääle kloonimiseks.
Respeecher, Voicemod ja ElevenLabs – kõigil kolmel idufirmal on üks ühine joon – nad kõik pakuvad häälekloonide tegemiseks algoritme ja AI-tarkvara. Nüüd on uus mängija, Kanada AI startup MyShell teatas, et on avatud lähtekoodiga oma OpenVoice'i algoritmi kiireks hääle kloonimiseks.
MyShell jagas värskendust saidil sotsiaalmeedia platvorm X ja ütles: "Kloonige hääli võrratu täpsusega, täpse tooni juhtimisega emotsioonidest kuni aktsendi, rütmi, pauside ja intonatsioonini, kasutades vaid väikest heliklippi."
Koostöö raames avalikustasid MIT, MyShell.ai ja Tsinghua ülikooli teadlased OpenVoice'i, mis suudab kõneleja häält kopeerida ja kõnet luua. mitut keelt, kasutades ainult lühikest helilõiku algallikast. See jäädvustab ka kõneleja hääle ainulaadse tooni ja värvi.
Ettevõtte sõnul lisab algoritm üliolulised stiilielemendid, nagu emotsioon, aktsent, rütm, pausid ja intonatsioon. Need elemendid on kõne tõeliseks muutmiseks ja huvitavate vestluste loomiseks üliolulised. See aitab vältida igavat heli, mis tekib tavalise teksti kõneks muutmise korral.
Kuidas häälkloonimise AI mudel töötab
Aastal uurimustöö, jagas OpenVoice oma häälekloonimise AI taga olevat metoodikat. OpenVoice koosneb kahest erinevast osast AI mudelid: teksti kõneks muutmise (TTS) mudel ja "toonimuundur".
Mudel suudab hallata stiiliparameetreid ja keeli ning on läbinud "30,000 XNUMX lausega koolituse" inglise (nii Ameerika kui Briti aktsendiga), hiina ja jaapani keele kõnelejatelt. Koolitus hõlmas näidiste märgistamist väljendatud emotsioonide põhjal ning modell õppis nendest heliklippidest intonatsiooni, rütmi ja pause.
Teisest küljest õpetati toonimuunduri mudelit enam kui 300,000 20,000 helinäidise suurele andmekogule enam kui XNUMX XNUMX erinevast kõlarist. Mõlemal juhul muudeti inimkõne heli foneemideks – spetsiifilisteks helideks, mis eristavad sõnu – ja esitati vektormanustuste abil.
TTS-mudel, mis kasutab "baaskõlarit", kombineerib heliga, mis on tuletatud kasutaja treeningprotsessis salvestatud helist. Need kaks mudelit koos suudavad kopeerida kasutaja häält ja muuta tooni värvi – kõnetekstis edasi antud emotsionaalset väljendust.
Startup asutati aastal 2023. Eelmisel aastal kogus MyShell INCE Capitali eestvedamisel idurahastust 5.6 miljonit dollarit ning seal osalesid teiste seas prominentsed investorid nagu Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC ja OP Crypto.
Ettevõtte sõnul aitab rahastamine kaasa varanduse edendamisele AI mudelid, AI-põhiste rakenduste jaoks kohandatud Creator Studio loomine ja elava loojate ökosüsteemi loomine plokiahela tehnoloogia raames.
Kaebused
Vastavalt Usaldusprojekti juhised, pange tähele, et sellel lehel esitatud teave ei ole mõeldud ega tohiks tõlgendada kui juriidilist, maksu-, investeerimis-, finants- või muud nõuannet. Oluline on investeerida ainult seda, mida saate endale lubada kaotada, ja kahtluste korral küsida sõltumatut finantsnõu. Lisateabe saamiseks soovitame vaadata nõudeid ja tingimusi ning väljaandja või reklaamija pakutavaid abi- ja tugilehti. MetaversePost on pühendunud täpsele ja erapooletule aruandlusele, kuid turutingimusi võidakse ette teatamata muuta.
Umbes Autor
Kumar on kogenud tehnikaajakirjanik, kes on spetsialiseerunud AI/ML dünaamilistele ristumiskohtadele, turundustehnoloogiale ja sellistele arenevatele valdkondadele nagu krüpto, plokiahel ja NFTs. Üle 3-aastase tööstusharu kogemusega Kumar on loonud tõestatud kogemusi mõjuvate narratiivide koostamisel, läbinägelike intervjuude läbiviimisel ja põhjaliku ülevaate andmisel. Kumari teadmised seisnevad silmapaistvatele tööstusplatvormidele suure mõjuga sisu, sealhulgas artiklite, aruannete ja teaduspublikatsioonide loomisel. Unikaalse oskuste kogumiga, mis ühendab tehnilised teadmised ja jutuvestmise, suudab Kumar suurepäraselt edastada keerulisi tehnoloogilisi kontseptsioone erinevatele sihtrühmadele selgel ja kaasahaaraval viisil.
Veel artikleidKumar on kogenud tehnikaajakirjanik, kes on spetsialiseerunud AI/ML dünaamilistele ristumiskohtadele, turundustehnoloogiale ja sellistele arenevatele valdkondadele nagu krüpto, plokiahel ja NFTs. Üle 3-aastase tööstusharu kogemusega Kumar on loonud tõestatud kogemusi mõjuvate narratiivide koostamisel, läbinägelike intervjuude läbiviimisel ja põhjaliku ülevaate andmisel. Kumari teadmised seisnevad silmapaistvatele tööstusplatvormidele suure mõjuga sisu, sealhulgas artiklite, aruannete ja teaduspublikatsioonide loomisel. Unikaalse oskuste kogumiga, mis ühendab tehnilised teadmised ja jutuvestmise, suudab Kumar suurepäraselt edastada keerulisi tehnoloogilisi kontseptsioone erinevatele sihtrühmadele selgel ja kaasahaaraval viisil.