AI Startup MyShell llança l'algoritme OpenVoice per a la clonació de veu precisa
En breu
La startup canadenca d'IA MyShell va anunciar que ha creat el seu algorisme OpenVoice de codi obert per a la clonació de veu instantània.
Respeecher, Voicemod i ElevenLabs Les tres startups tenen una cosa en comú: totes proporcionen algorismes i programari d'IA per fer clons de veu. Ara, un nou jugador, una startup canadenca d'IA MyShell va anunciar que ha obtingut de codi obert el seu algorisme OpenVoice per a la clonació instantània de veu.
MyShell va compartir l'actualització a plataforma de xarxes socials X i va dir: "Clona veus amb una precisió inigualable, amb un control granular del to, des de l'emoció fins a l'accent, el ritme, les pauses i l'entonació, utilitzant només un petit clip d'àudio".
Sota la col·laboració, investigadors del MIT, MyShell.ai i la Universitat de Tsinghua van presentar OpenVoice, que pot replicar la veu d'un parlant i generar la parla en diversos idiomes, utilitzant només un breu fragment d'àudio de la font original. També captura el to i el color únics de la veu de l'orador.
Segons l'empresa, l'algoritme afegeix elements estilístics crucials com l'emoció, l'accent, el ritme, les pauses i l'entonació. Aquests elements són crucials per fer que el discurs soni real i per crear converses interessants. Ajuda a evitar el so avorrit que sovint obteniu amb la conversió de text a veu normal.
Com funciona el model d'IA per clonació de veu
En una treball de recerca, OpenVoice va compartir la metodologia darrere de la seva IA de clonació de veu. OpenVoice es compon de dos diferents Models d'IA: un model de text a veu (TTS) i un "convertidor de to".
El model pot gestionar paràmetres d'estil i idiomes, i s'ha sotmès a un "entrenament amb 30,000 frases" d'anglès (tant amb accent americà com britànic), parlants xinès i japonès. La formació va implicar etiquetar les mostres en funció de les emocions expressades i el model va aprendre l'entonació, el ritme i les pauses d'aquests clips d'àudio.
D'altra banda, el model de convertidor de to es va entrenar amb un ampli conjunt de dades de més de 300,000 mostres d'àudio de més de 20,000 altaveus diferents. En ambdós casos, l'àudio de la parla humana es va convertir en fonemes, sons específics que diferencien paraules, i es va representar mitjançant incrustacions vectorials.
El model TTS, que utilitza un "altaveu base", es combina amb el to derivat de l'àudio gravat d'un usuari durant el procés d'entrenament. En conjunt, aquests dos models poden replicar la veu de l'usuari i modificar el color del to, l'expressió emocional que es transmet en el text parlat.
La startup es va fundar l'any 2023. L'any passat, MyShell va recaptar 5.6 milions de dòlars en finançament inicial, liderat per INCE Capital, i va comptar amb la participació d'inversors destacats com Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC i OP Crypto, entre d'altres.
Segons l'empresa, el finançament ajudarà en l'avenç de la propietat Models d'IA, la creació d'un Creator Studio dissenyat per a aplicacions natives d'IA i l'establiment d'un ecosistema de creadors vibrant dins l'àmbit de la tecnologia blockchain.
renúncia
En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.
About The Autor
Kumar és un periodista tecnològic experimentat amb una especialització en les interseccions dinàmiques d'IA/ML, tecnologia de màrqueting i camps emergents com ara cripto, blockchain i NFTs. Amb més de 3 anys d'experiència en el sector, Kumar ha establert una trajectòria demostrada en l'elaboració de narracions convincents, la realització d'entrevistes minucioses i l'oferiment d'informació exhaustiva. L'experiència de Kumar rau en la producció de contingut d'alt impacte, inclosos articles, informes i publicacions de recerca per a plataformes de la indústria destacades. Amb un conjunt d'habilitats únics que combina coneixements tècnics i narració, Kumar destaca per comunicar conceptes tecnològics complexos a diversos públics d'una manera clara i atractiva.
més articlesKumar és un periodista tecnològic experimentat amb una especialització en les interseccions dinàmiques d'IA/ML, tecnologia de màrqueting i camps emergents com ara cripto, blockchain i NFTs. Amb més de 3 anys d'experiència en el sector, Kumar ha establert una trajectòria demostrada en l'elaboració de narracions convincents, la realització d'entrevistes minucioses i l'oferiment d'informació exhaustiva. L'experiència de Kumar rau en la producció de contingut d'alt impacte, inclosos articles, informes i publicacions de recerca per a plataformes de la indústria destacades. Amb un conjunt d'habilitats únics que combina coneixements tècnics i narració, Kumar destaca per comunicar conceptes tecnològics complexos a diversos públics d'una manera clara i atractiva.