Informe de notícies Tecnologia
Gener 03, 2024

AI Startup MyShell llança l'algoritme OpenVoice per a la clonació de veu precisa

En breu

La startup canadenca d'IA MyShell va anunciar que ha creat el seu algorisme OpenVoice de codi obert per a la clonació de veu instantània.

AI Startup MyShell llança l'algoritme OpenVoice per a la clonació de veu precisa

Respeecher, Voicemod i ElevenLabs Les tres startups tenen una cosa en comú: totes proporcionen algorismes i programari d'IA per fer clons de veu. Ara, un nou jugador, una startup canadenca d'IA MyShell va anunciar que ha obtingut de codi obert el seu algorisme OpenVoice per a la clonació instantània de veu.

MyShell va compartir l'actualització a plataforma de xarxes socials X i va dir: "Clona veus amb una precisió inigualable, amb un control granular del to, des de l'emoció fins a l'accent, el ritme, les pauses i l'entonació, utilitzant només un petit clip d'àudio".

Sota la col·laboració, investigadors del MIT, MyShell.ai i la Universitat de Tsinghua van presentar OpenVoice, que pot replicar la veu d'un parlant i generar la parla en diversos idiomes, utilitzant només un breu fragment d'àudio de la font original. També captura el to i el color únics de la veu de l'orador.

Segons l'empresa, l'algoritme afegeix elements estilístics crucials com l'emoció, l'accent, el ritme, les pauses i l'entonació. Aquests elements són crucials per fer que el discurs soni real i per crear converses interessants. Ajuda a evitar el so avorrit que sovint obteniu amb la conversió de text a veu normal.

Com funciona el model d'IA per clonació de veu

En una treball de recerca, OpenVoice va compartir la metodologia darrere de la seva IA de clonació de veu. OpenVoice es compon de dos diferents Models d'IA: un model de text a veu (TTS) i un "convertidor de to".

El model pot gestionar paràmetres d'estil i idiomes, i s'ha sotmès a un "entrenament amb 30,000 frases" d'anglès (tant amb accent americà com britànic), parlants xinès i japonès. La formació va implicar etiquetar les mostres en funció de les emocions expressades i el model va aprendre l'entonació, el ritme i les pauses d'aquests clips d'àudio.

D'altra banda, el model de convertidor de to es va entrenar amb un ampli conjunt de dades de més de 300,000 mostres d'àudio de més de 20,000 altaveus diferents. En ambdós casos, l'àudio de la parla humana es va convertir en fonemes, sons específics que diferencien paraules, i es va representar mitjançant incrustacions vectorials.

El model TTS, que utilitza un "altaveu base", es combina amb el to derivat de l'àudio gravat d'un usuari durant el procés d'entrenament. En conjunt, aquests dos models poden replicar la veu de l'usuari i modificar el color del to, l'expressió emocional que es transmet en el text parlat.

La startup es va fundar l'any 2023. L'any passat, MyShell va recaptar 5.6 milions de dòlars en finançament inicial, liderat per INCE Capital, i va comptar amb la participació d'inversors destacats com Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC i OP Crypto, entre d'altres.

Segons l'empresa, el finançament ajudarà en l'avenç de la propietat Models d'IA, la creació d'un Creator Studio dissenyat per a aplicacions natives d'IA i l'establiment d'un ecosistema de creadors vibrant dins l'àmbit de la tecnologia blockchain.

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Kumar és un periodista tecnològic experimentat amb una especialització en les interseccions dinàmiques d'IA/ML, tecnologia de màrqueting i camps emergents com ara cripto, blockchain i NFTs. Amb més de 3 anys d'experiència en el sector, Kumar ha establert una trajectòria demostrada en l'elaboració de narracions convincents, la realització d'entrevistes minucioses i l'oferiment d'informació exhaustiva. L'experiència de Kumar rau en la producció de contingut d'alt impacte, inclosos articles, informes i publicacions de recerca per a plataformes de la indústria destacades. Amb un conjunt d'habilitats únics que combina coneixements tècnics i narració, Kumar destaca per comunicar conceptes tecnològics complexos a diversos públics d'una manera clara i atractiva.

més articles
Kumar Gandharv
Kumar Gandharv

Kumar és un periodista tecnològic experimentat amb una especialització en les interseccions dinàmiques d'IA/ML, tecnologia de màrqueting i camps emergents com ara cripto, blockchain i NFTs. Amb més de 3 anys d'experiència en el sector, Kumar ha establert una trajectòria demostrada en l'elaboració de narracions convincents, la realització d'entrevistes minucioses i l'oferiment d'informació exhaustiva. L'experiència de Kumar rau en la producció de contingut d'alt impacte, inclosos articles, informes i publicacions de recerca per a plataformes de la indústria destacades. Amb un conjunt d'habilitats únics que combina coneixements tècnics i narració, Kumar destaca per comunicar conceptes tecnològics complexos a diversos públics d'una manera clara i atractiva.

L'apetit institucional creix cap als ETF de Bitcoin enmig de la volatilitat

Les divulgacions a través de les presentacions 13F revelen inversors institucionals notables que s'estan incursionant en els ETF de Bitcoin, subratllant una acceptació creixent de...

saber Més

Arriba el dia de la sentència: el destí de CZ està en equilibri mentre el tribunal nord-americà considera la petició del DOJ

Changpeng Zhao està a punt d'enfrontar-se avui a la sentència en un tribunal dels Estats Units a Seattle.

saber Més
Uneix-te a la nostra comunitat tecnològica innovadora
Més...
Llegeix més
Crypto Exchange OKX llista Notcoin, disposat a introduir el comerç al comptat amb el parell NOT-USDT el 16 de maig
mercats Informe de notícies Tecnologia
Crypto Exchange OKX llista Notcoin, disposat a introduir el comerç al comptat amb el parell NOT-USDT el 16 de maig  
Pot 10, 2024
Blast llança el tercer esdeveniment de distribució d'or Blast, assigna 15 milions de punts a DApps
mercats Informe de notícies Tecnologia
Blast llança el tercer esdeveniment de distribució d'or Blast, assigna 15 milions de punts a DApps
Pot 10, 2024
Espresso Systems col·labora amb Polygon Labs per desenvolupar AggLayer per millorar la interoperabilitat de l'enrotllament
Negocis Informe de notícies Tecnologia
Espresso Systems col·labora amb Polygon Labs per desenvolupar AggLayer per millorar la interoperabilitat de l'enrotllament
Pot 9, 2024
El protocol d'infraestructura impulsat per ZKP ZKBase presenta el full de ruta i planeja el llançament de Testnet al maig
Informe de notícies Tecnologia
El protocol d'infraestructura impulsat per ZKP ZKBase presenta el full de ruta i planeja el llançament de Testnet al maig
Pot 9, 2024
CRYPTOMERIA LABS PTE. LTD.