AI Startup MyShell vydáva OpenVoice algoritmus pre presné klonovanie hlasu
Stručne
Kanadský startup MyShell s umelou inteligenciou oznámil, že sprístupnil svoj OpenVoice algoritmus pre okamžité klonovanie hlasu.
Respeecher, Voicemod a ElevenLabs – všetky tri startupy majú jedno spoločné – všetky poskytujú algoritmy a softvér AI na vytváranie hlasových klonov. Teraz nový hráč, kanadský startup AI MyShell oznámila, že sprístupnila svoj OpenVoice algoritmus pre okamžité klonovanie hlasu.
MyShell zdieľal aktualizáciu na platforma sociálnych médií X a povedal: "Klonujte hlasy s bezkonkurenčnou presnosťou, s podrobným ovládaním tónu, od emócií po prízvuk, rytmus, pauzy a intonáciu, len pomocou malého zvukového klipu."
V rámci spolupráce vedci z MIT, MyShell.ai a Tsinghua University odhalili OpenVoice, ktorý dokáže replikovať hlas hovoriaceho a generovať reč v viacerých jazykochpomocou iba krátkeho zvukového úryvku z pôvodného zdroja. Zachytáva tiež jedinečný tón a farbu hlasu hovoriaceho.
Podľa spoločnosti algoritmus pridáva kľúčové štylistické prvky, ako sú emócie, prízvuk, rytmus, pauzy a intonácia. Tieto prvky sú kľúčové pre to, aby reč znela skutočne a vytvárala zaujímavé konverzácie. Pomáha vyhnúť sa nudnému zvuku, ktorý často získavate pri bežnom prevode textu na reč.
Ako funguje model AI na klonovanie hlasu
V výzkumná práca, OpenVoice zdieľa metodológiu svojej umelej inteligencie na klonovanie hlasu. OpenVoice sa skladá z dvoch odlišných AI modely: model prevodu textu na reč (TTS) a „prevodník tónov“.
Model dokáže spravovať parametre štýlu a jazyky a prešiel „tréningom s použitím 30,000 XNUMX viet“ z angličtiny (s americkým aj britským prízvukom), čínskych a japonských hovorcov. Tréning zahŕňal označovanie vzoriek na základe vyjadrených emócií a model sa z týchto zvukových klipov naučil intonáciu, rytmus a pauzy.
Na druhej strane, model prevodníka tónov bol trénovaný na rozsiahlom súbore údajov s viac ako 300,000 20,000 zvukovými ukážkami z viac ako XNUMX XNUMX rôznych reproduktorov. V oboch prípadoch bol zvuk ľudskej reči prevedený na fonémy – špecifické zvuky, ktoré rozlišujú slová – a reprezentovaný pomocou vektorového vloženia.
Model TTS, ktorý používa „základný reproduktor“, sa kombinuje s tónom odvodeným z nahraného zvuku používateľa v tréningovom procese. Spoločne tieto dva modely dokážu replikovať hlas používateľa a upraviť farbu tónu – emocionálny výraz vyjadrený v hovorenom texte.
Startup bol založený v roku 2023. Minulý rok MyShell vyzbieral počiatočné financovanie vo výške 5.6 milióna dolárov pod vedením INCE Capital a zaznamenalo účasť významných investorov, ako sú Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC a OP Crypto, medzi inými.
Financovanie podľa spoločnosti pomôže pri napredovaní vlastníctva AI modely, vytvorenie Creator Studio prispôsobeného pre natívne aplikácie AI a vytvorenie živého tvorivého ekosystému v rámci technológie blockchain.
Vylúčenie zodpovednosti
V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.
O autorovi
Kumar je skúsený technický novinár so špecializáciou na dynamické prieniky AI/ML, marketingových technológií a nových oblastí, ako sú krypto, blockchain a NFTs. S viac ako 3-ročnými skúsenosťami v tomto odvetví má Kumar preukázané výsledky pri vytváraní pútavých príbehov, vedení dômyselných rozhovorov a poskytovaní komplexných poznatkov. Kumarova odbornosť spočíva vo vytváraní vysoko účinného obsahu vrátane článkov, správ a výskumných publikácií pre prominentné priemyselné platformy. Vďaka jedinečnému súboru zručností, ktorý kombinuje technické znalosti a rozprávanie príbehov, Kumar vyniká v komunikácii zložitých technologických konceptov pre rôzne publikum jasným a pútavým spôsobom.
Ďalšie článkyKumar je skúsený technický novinár so špecializáciou na dynamické prieniky AI/ML, marketingových technológií a nových oblastí, ako sú krypto, blockchain a NFTs. S viac ako 3-ročnými skúsenosťami v tomto odvetví má Kumar preukázané výsledky pri vytváraní pútavých príbehov, vedení dômyselných rozhovorov a poskytovaní komplexných poznatkov. Kumarova odbornosť spočíva vo vytváraní vysoko účinného obsahu vrátane článkov, správ a výskumných publikácií pre prominentné priemyselné platformy. Vďaka jedinečnému súboru zručností, ktorý kombinuje technické znalosti a rozprávanie príbehov, Kumar vyniká v komunikácii zložitých technologických konceptov pre rôzne publikum jasným a pútavým spôsobom.