Google presenta AudioPaLM, un poderoso modelo de lenguaje de inteligencia artificial para la generación de voz
En Resumen
AudioPaLM es un potente modelo de lenguaje desarrollado por Google que combina modelos basados en texto y en voz para un procesamiento fluido de voz y texto.
Conserva la información paralingüística y supera a los sistemas existentes en tareas de traducción de voz.
AudioPaLM puede traducir idiomas acentuados y realizar transferencias de voz para la traducción de voz a voz.
Google ha presentado un modelo de lenguaje llamado AudioPaLM, que combina modelos de lenguaje basados en texto y en voz para procesar y generar voz y texto sin problemas. Al fusionar las capacidades de Palma-2 y AudioLM, AudioPaLM ofrece una arquitectura multimodal unificada que abre una amplia gama de aplicaciones, incluido el reconocimiento de voz y la traducción de voz a voz.
Una característica notable de AudioPaLM es su capacidad para preservar información paralingüística como la identidad y la entonación del hablante, gracias a la influencia de AudioLM. Al mismo tiempo, aprovecha el conocimiento lingüístico que se encuentra en modelos de lenguaje basados en texto como PaLM-2. Al inicializar AudioPaLM con los pesos de un modelo de lenguaje grande de solo texto, el modelo sobresale en el procesamiento del habla, aprovechando los extensos datos de entrenamiento de texto utilizados en el entrenamiento previo.
Las notables capacidades de AudioPaLM se han demostrado a través de varios experimentos. Ha superado a los sistemas existentes en tareas de traducción de voz y muestra la capacidad de realizar tareas de disparo cero. traducción de voz a texto para idiomas no encontrados durante el entrenamiento.
Además, AudioPaLM exhibe características de modelos de lenguaje de audio mediante la transferencia de voces entre idiomas en función de breves indicaciones habladas.
Google ha hecho ejemplos de las capacidades de AudioPaLM disponible para la exploración. La capacidad del modelo para traducir idiomas con distintos acentos, como el italiano y el alemán, ha intrigado a investigadores y usuarios por igual. Además, su competencia en la realización de transferencias de voz para la traducción de voz a voz lo distingue de las líneas de base existentes, como lo confirman tanto las métricas automáticas como los evaluadores humanos.
El modelo es muy bueno para traducir un idioma de audio a audio en otro idioma, preservando la voz y las emociones de una persona. Curiosamente, al traducir algunos idiomas como el italiano y el alemán, el modelo tiene un acento notable, y al traducir otros, por ejemplo, el francés, habla con un perfecto acento americano.
Lea más sobre la IA:
Observación
En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.
Sobre el Autor
Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.
Más artículosDamir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.