La startup de IA MyShell lanza el algoritmo OpenVoice para una clonación de voz precisa
En Resumen
La startup canadiense de IA MyShell anunció que ha abierto su algoritmo OpenVoice para la clonación instantánea de voz.
Respeecher, Voicemod y oncelabs – Las tres startups tienen una cosa en común: todas proporcionan algoritmos y software de inteligencia artificial para crear clones de voz. Ahora, un nuevo jugador, la startup canadiense de IA Mi concha anunció que ha abierto su algoritmo OpenVoice para la clonación instantánea de voz.
MyShell compartió la actualización el plataforma de redes sociales X y dijo: “Clone voces con una precisión incomparable, con control granular del tono, desde la emoción hasta el acento, el ritmo, las pausas y la entonación, usando solo un pequeño clip de audio”.
En el marco de la colaboración, investigadores del MIT, MyShell.ai y la Universidad de Tsinghua dieron a conocer OpenVoice, que puede replicar la voz de un hablante y generar voz en múltiples idiomas, utilizando sólo un breve fragmento de audio de la fuente original. También captura el tono y color únicos de la voz del hablante.
Según la empresa, el algoritmo añade elementos estilísticos cruciales como emoción, acento, ritmo, pausas y entonación. Estos elementos son cruciales para hacer que el habla suene real y crear conversaciones interesantes. Ayuda a evitar el sonido aburrido que suele producirse con la conversión de texto a voz normal.
Cómo funciona el modelo de IA de clonación de voz
En un trabajo de investigación, OpenVoice compartió la metodología detrás de su IA de clonación de voz. OpenVoice se compone de dos distintos Modelos AI: un modelo de texto a voz (TTS) y un “convertidor de tonos”.
El modelo puede gestionar parámetros de estilo e idiomas, y ha sido "entrenado utilizando 30,000 frases" de hablantes de inglés (con acento americano y británico), chino y japonés. El entrenamiento implicó etiquetar las muestras según las emociones expresadas, y el modelo aprendió la entonación, el ritmo y las pausas de estos clips de audio.
Por otro lado, el modelo de convertidor de tonos se entrenó en un vasto conjunto de datos de más de 300,000 muestras de audio de más de 20,000 hablantes diferentes. En ambos casos, el audio del habla humana se convirtió en fonemas (sonidos específicos que diferencian las palabras) y se representó mediante incrustaciones de vectores.
El modelo TTS, que utiliza un "altavoz base", se combina con el tono derivado del audio grabado del usuario en el proceso de capacitación. Juntos, estos dos modelos pueden replicar la voz del usuario y modificar el color del tono: la expresión emocional transmitida en el texto hablado.
La startup se fundó en 2023. El año pasado, MyShell recaudó 5.6 millones de dólares en financiación inicial, liderada por INCE Capital, y contó con la participación de inversores destacados como Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC y OP Crypto, entre otros.
Según la empresa, la financiación ayudará al avance de la propiedad Modelos AI, la creación de un Creator Studio diseñado para aplicaciones nativas de IA y el establecimiento de un vibrante ecosistema de creadores dentro del ámbito de la tecnología blockchain.
Observación
En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.
Sobre el Autor
Kumar es un periodista tecnológico experimentado con especialización en las intersecciones dinámicas de AI/ML, tecnología de marketing y campos emergentes como cripto, blockchain y NFTs. Con más de 3 años de experiencia en la industria, Kumar ha establecido una trayectoria comprobada en la elaboración de narrativas convincentes, la realización de entrevistas interesantes y la entrega de conocimientos integrales. La experiencia de Kumar radica en la producción de contenido de alto impacto, incluidos artículos, informes y publicaciones de investigación para plataformas industriales destacadas. Con un conjunto de habilidades único que combina conocimiento técnico y narración, Kumar se destaca en comunicar conceptos tecnológicos complejos a audiencias diversas de una manera clara y atractiva.
Más artículosKumar es un periodista tecnológico experimentado con especialización en las intersecciones dinámicas de AI/ML, tecnología de marketing y campos emergentes como cripto, blockchain y NFTs. Con más de 3 años de experiencia en la industria, Kumar ha establecido una trayectoria comprobada en la elaboración de narrativas convincentes, la realización de entrevistas interesantes y la entrega de conocimientos integrales. La experiencia de Kumar radica en la producción de contenido de alto impacto, incluidos artículos, informes y publicaciones de investigación para plataformas industriales destacadas. Con un conjunto de habilidades único que combina conocimiento técnico y narración, Kumar se destaca en comunicar conceptos tecnológicos complejos a audiencias diversas de una manera clara y atractiva.