Informe de noticias Tecnología
Enero 03, 2024

La startup de IA MyShell lanza el algoritmo OpenVoice para una clonación de voz precisa

En Resumen

La startup canadiense de IA MyShell anunció que ha abierto su algoritmo OpenVoice para la clonación instantánea de voz.

La startup de IA MyShell lanza el algoritmo OpenVoice para una clonación de voz precisa

Respeecher, Voicemod y oncelabs – Las tres startups tienen una cosa en común: todas proporcionan algoritmos y software de inteligencia artificial para crear clones de voz. Ahora, un nuevo jugador, la startup canadiense de IA Mi concha anunció que ha abierto su algoritmo OpenVoice para la clonación instantánea de voz.

MyShell compartió la actualización el plataforma de redes sociales X y dijo: “Clone voces con una precisión incomparable, con control granular del tono, desde la emoción hasta el acento, el ritmo, las pausas y la entonación, usando solo un pequeño clip de audio”.

En el marco de la colaboración, investigadores del MIT, MyShell.ai y la Universidad de Tsinghua dieron a conocer OpenVoice, que puede replicar la voz de un hablante y generar voz en múltiples idiomas, utilizando sólo un breve fragmento de audio de la fuente original. También captura el tono y color únicos de la voz del hablante.

Según la empresa, el algoritmo añade elementos estilísticos cruciales como emoción, acento, ritmo, pausas y entonación. Estos elementos son cruciales para hacer que el habla suene real y crear conversaciones interesantes. Ayuda a evitar el sonido aburrido que suele producirse con la conversión de texto a voz normal.

Cómo funciona el modelo de IA de clonación de voz

En un trabajo de investigación, OpenVoice compartió la metodología detrás de su IA de clonación de voz. OpenVoice se compone de dos distintos Modelos AI: un modelo de texto a voz (TTS) y un “convertidor de tonos”.

El modelo puede gestionar parámetros de estilo e idiomas, y ha sido "entrenado utilizando 30,000 frases" de hablantes de inglés (con acento americano y británico), chino y japonés. El entrenamiento implicó etiquetar las muestras según las emociones expresadas, y el modelo aprendió la entonación, el ritmo y las pausas de estos clips de audio.

Por otro lado, el modelo de convertidor de tonos se entrenó en un vasto conjunto de datos de más de 300,000 muestras de audio de más de 20,000 hablantes diferentes. En ambos casos, el audio del habla humana se convirtió en fonemas (sonidos específicos que diferencian las palabras) y se representó mediante incrustaciones de vectores.

El modelo TTS, que utiliza un "altavoz base", se combina con el tono derivado del audio grabado del usuario en el proceso de capacitación. Juntos, estos dos modelos pueden replicar la voz del usuario y modificar el color del tono: la expresión emocional transmitida en el texto hablado.

La startup se fundó en 2023. El año pasado, MyShell recaudó 5.6 millones de dólares en financiación inicial, liderada por INCE Capital, y contó con la participación de inversores destacados como Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC y OP Crypto, entre otros.

Según la empresa, la financiación ayudará al avance de la propiedad Modelos AI, la creación de un Creator Studio diseñado para aplicaciones nativas de IA y el establecimiento de un vibrante ecosistema de creadores dentro del ámbito de la tecnología blockchain.

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Kumar es un periodista tecnológico experimentado con especialización en las intersecciones dinámicas de AI/ML, tecnología de marketing y campos emergentes como cripto, blockchain y NFTs. Con más de 3 años de experiencia en la industria, Kumar ha establecido una trayectoria comprobada en la elaboración de narrativas convincentes, la realización de entrevistas interesantes y la entrega de conocimientos integrales. La experiencia de Kumar radica en la producción de contenido de alto impacto, incluidos artículos, informes y publicaciones de investigación para plataformas industriales destacadas. Con un conjunto de habilidades único que combina conocimiento técnico y narración, Kumar se destaca en comunicar conceptos tecnológicos complejos a audiencias diversas de una manera clara y atractiva.

Más artículos
Kumar Gandharv
Kumar Gandharv

Kumar es un periodista tecnológico experimentado con especialización en las intersecciones dinámicas de AI/ML, tecnología de marketing y campos emergentes como cripto, blockchain y NFTs. Con más de 3 años de experiencia en la industria, Kumar ha establecido una trayectoria comprobada en la elaboración de narrativas convincentes, la realización de entrevistas interesantes y la entrega de conocimientos integrales. La experiencia de Kumar radica en la producción de contenido de alto impacto, incluidos artículos, informes y publicaciones de investigación para plataformas industriales destacadas. Con un conjunto de habilidades único que combina conocimiento técnico y narración, Kumar se destaca en comunicar conceptos tecnológicos complejos a audiencias diversas de una manera clara y atractiva.

Crece el apetito institucional por los ETF de Bitcoin en medio de la volatilidad

Las divulgaciones a través de presentaciones 13F revelan que notables inversores institucionales incursionan en los ETF de Bitcoin, lo que subraya una creciente aceptación de...

Para saber más

Llega el día de la sentencia: el destino de CZ pende de un hilo mientras un tribunal de EE. UU. considera la petición del Departamento de Justicia

Changpeng Zhao está listo para enfrentar hoy su sentencia en un tribunal estadounidense en Seattle.

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
Nexo inicia 'The Hunt' para recompensar a los usuarios con 12 millones de dólares en tokens NEXO por interactuar con su ecosistema
Industrias Informe de noticias Tecnología
Nexo inicia 'The Hunt' para recompensar a los usuarios con 12 millones de dólares en tokens NEXO por interactuar con su ecosistema
8 de mayo de 2024
El intercambio Revolut X de Revolut atrae a los comerciantes de criptomonedas con tarifas cero para creadores y análisis avanzados
Industrias Software Historias y comentarios Tecnología
El intercambio Revolut X de Revolut atrae a los comerciantes de criptomonedas con tarifas cero para creadores y análisis avanzados
8 de mayo de 2024
La plataforma de comercio de criptomonedas BitMEX estrena el comercio de opciones sin comisiones ni incentivos en efectivo
Empresa Industrias Informe de noticias
La plataforma de comercio de criptomonedas BitMEX estrena el comercio de opciones sin comisiones ni incentivos en efectivo
8 de mayo de 2024
Lisk hace la transición oficial a Ethereum Layer 2 y presenta Core v4.0.6
Informe de noticias Tecnología
Lisk hace la transición oficial a Ethereum Layer 2 y presenta Core v4.0.6
8 de mayo de 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.