Meta ha desarrollado una IA de voz de código abierto que reconoce más de 4,000 idiomas hablados
En Resumen
El proyecto MMS de la empresa puede reconocer más de 4,000 idiomas.
Como la mayoría de sus otros proyectos de IA anunciados públicamente, Meta comparte sus modelos y código para ayudar a preservar la diversidad lingüística.
A través de este trabajo, esperan hacer una pequeña contribución a la preservación de la increíble diversidad lingüística del mundo.
Meta ha creado un modelo de lenguaje de IA que es un giro refrescante en ChatGPT. el código abierto proyecto mms ha sido creado para preservar la diversidad lingüística y fomentar la investigación y puede reconocer más de 4,000 idiomas hablados y producir texto (habla) en más de 1,100. La compañía tiene lanzado públicamente sus modelos y códigos hoy para promover sus objetivos.
“Estamos compartiendo públicamente nuestras creaciones y código para alentar a otros en la comunidad de investigación a desarrollar nuestro trabajo”, escribió Meta. “A través de este esfuerzo, esperamos preservar la enorme variedad de idiomas del mundo”.
La dificultad de entrenar reconocedores de voz y modelos de texto a voz en grandes cantidades de audio sin etiquetas de transcripción es típica. Las etiquetas son fundamentales para máquina de aprendizaje, que puede identificar y clasificar correctamente los datos. Sin embargo, para los idiomas que desaparecerán en las próximas décadas, “estos datos simplemente no existen”, como explica Meta.
Meta usó grabaciones de audio de textos religiosos para recopilar datos de una manera poco convencional. “Utilizamos traducciones de textos religiosos como la Biblia, que se han estudiado ampliamente para la investigación de traducción de idiomas basada en texto en muchos idiomas porque se traducen en muchos idiomas diferentes”, dijo la compañía. Extrajimos grabaciones de audio de personas que leen estos textos en diferentes idiomas de traducciones disponibles públicamente”. Los investigadores de Meta agregaron más de 4,000 idiomas a la modelo.
El enfoque suena como una receta para un modelo de IA muy sesgado que favorece las cosmovisiones cristianas. Sin embargo, antes de burlarse de la idea, considérela desde la perspectiva de Meta: los investigadores creen que este es el caso porque emplean una clasificación temporal CTC conexionista (o modelo secuencia a secuencia o tipo secuencia) que es mucho más limitada en términos de potencia computacional en comparación con grandes modelos de lenguaje (también conocidos como tipos de secuencia) o modelos secuenciales para reconocimiento de voz. Meta dice que esto no resultó en un sesgo masculino en las grabaciones religiosas registradas por la mayoría de los hablantes masculinos.
Meta usó wav2vec 2.0, un modelo de "aprendizaje de representación del habla autosupervisado", para entrenar un wav2vec 2.0 modelo de alineación que hace que los datos sean más utilizables. El modelo de voz autosupervisado que Meta autosupervisó a partir de datos no etiquetados condujo a excelentes resultados. Meta descubrió que los modelos de voz multilingües funcionaban bien en comparación con los modelos existentes y cubrían 10 veces más idiomas, en particular en comparación con Susurro. Meta logró la mitad de la tasa de error de palabras, mientras que Massively Multilingual Speech cubrió 11 veces más idiomas.
Meta dice que sus nuevos modelos de voz a texto no son perfectos. Por ejemplo, podrían traducir mal palabras o frases, lo que podría resultar en un discurso ofensivo y/o incorrecto, escribió la compañía. El desarrollo responsable de las tecnologías de IA debe lograrse mediante la colaboración entre la comunidad de IA.
Dado que Meta ha lanzado MMS para la investigación de código abierto, espera poder revertir la tendencia de desaparición del uso del lenguaje. En esta visión, la tecnología de asistencia, TTS e incluso la realidad virtual y la tecnología de realidad aumentada podrían permitir que todos hablen y aprendan en sus idiomas nativos. Afirmó: “Visualizamos un mundo en el que la tecnología tiene el efecto contrario, incitando a las personas a mantener vivos sus idiomas, ya que pueden acceder a la información y utilizar la tecnología hablando en su idioma preferido”.
- Recientemente, Meta ha anunciado resultados financieros del primer trimestre de 2023. A pesar de los recientes esfuerzos de reestructuración, la empresa sorprendió a los inversores con un aumento inesperado en las ventas del primer trimestre. Las acciones subieron un 12% el miércoles.
Leer más artículos relacionados:
- 4,000 personas se sometieron a psicoterapia con robots de IA sin saberlo
- Interrumpir la interrupción: cómo las direcciones de placa de teletransporte de Stage Meta se harán cargo del metaverso.
- La FTC frena las ambiciones de realidad virtual de Meta con una demanda
Observación
En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.
Sobre el Autor
Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.
Más artículosDamir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.