Informe de noticias Tecnología
Sábado, Junio 26, 2023

Google presenta AudioPaLM, un poderoso modelo de lenguaje de inteligencia artificial para la generación de voz

En Resumen

AudioPaLM es un potente modelo de lenguaje desarrollado por Google que combina modelos basados ​​en texto y en voz para un procesamiento fluido de voz y texto.

Conserva la información paralingüística y supera a los sistemas existentes en tareas de traducción de voz.

AudioPaLM puede traducir idiomas acentuados y realizar transferencias de voz para la traducción de voz a voz.

Google ha presentado un modelo de lenguaje llamado AudioPaLM, que combina modelos de lenguaje basados ​​en texto y en voz para procesar y generar voz y texto sin problemas. Al fusionar las capacidades de Palma-2 y AudioLM, AudioPaLM ofrece una arquitectura multimodal unificada que abre una amplia gama de aplicaciones, incluido el reconocimiento de voz y la traducción de voz a voz.

Google presenta AudioPaLM, un poderoso modelo de lenguaje para la generación de voz
Créditos: Metaverse Post (mpost.io)

Una característica notable de AudioPaLM es su capacidad para preservar información paralingüística como la identidad y la entonación del hablante, gracias a la influencia de AudioLM. Al mismo tiempo, aprovecha el conocimiento lingüístico que se encuentra en modelos de lenguaje basados ​​en texto como PaLM-2. Al inicializar AudioPaLM con los pesos de un modelo de lenguaje grande de solo texto, el modelo sobresale en el procesamiento del habla, aprovechando los extensos datos de entrenamiento de texto utilizados en el entrenamiento previo.

Las notables capacidades de AudioPaLM se han demostrado a través de varios experimentos. Ha superado a los sistemas existentes en tareas de traducción de voz y muestra la capacidad de realizar tareas de disparo cero. traducción de voz a texto para idiomas no encontrados durante el entrenamiento.

Además, AudioPaLM exhibe características de modelos de lenguaje de audio mediante la transferencia de voces entre idiomas en función de breves indicaciones habladas.

Google ha hecho ejemplos de las capacidades de AudioPaLM disponible para la exploración. La capacidad del modelo para traducir idiomas con distintos acentos, como el italiano y el alemán, ha intrigado a investigadores y usuarios por igual. Además, su competencia en la realización de transferencias de voz para la traducción de voz a voz lo distingue de las líneas de base existentes, como lo confirman tanto las métricas automáticas como los evaluadores humanos.

El modelo es muy bueno para traducir un idioma de audio a audio en otro idioma, preservando la voz y las emociones de una persona. Curiosamente, al traducir algunos idiomas como el italiano y el alemán, el modelo tiene un acento notable, y al traducir otros, por ejemplo, el francés, habla con un perfecto acento americano.

El modelo AudioPaLM con ejemplos de traducción de voz a voz y reconocimiento automático de voz.

Lea más sobre la IA:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Hot Stories
Suscríbase a nuestro boletín.
Últimas Noticias

Crece el apetito institucional por los ETF de Bitcoin en medio de la volatilidad

Las divulgaciones a través de presentaciones 13F revelan que notables inversores institucionales incursionan en los ETF de Bitcoin, lo que subraya una creciente aceptación de...

Para saber más

Llega el día de la sentencia: el destino de CZ pende de un hilo mientras un tribunal de EE. UU. considera la petición del Departamento de Justicia

Changpeng Zhao está listo para enfrentar hoy su sentencia en un tribunal estadounidense en Seattle.

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
MPost Se une a los líderes de la industria en la campaña 'Bitcoin merece un emoji', apoyando la integración del símbolo de Bitcoin en cada teclado virtual
Estilo de vida Informe de noticias Tecnología
MPost Se une a los líderes de la industria en la campaña 'Bitcoin merece un emoji', apoyando la integración del símbolo de Bitcoin en cada teclado virtual
10 de mayo de 2024
Crypto Exchange OKX incluye Notcoin y está listo para introducir el comercio al contado con el par NOT-USDT el 16 de mayo
Industrias Informe de noticias Tecnología
Crypto Exchange OKX incluye Notcoin y está listo para introducir el comercio al contado con el par NOT-USDT el 16 de mayo  
10 de mayo de 2024
Blast lanza el tercer evento de distribución de Blast Gold y asigna 15 millones de puntos a DApps
Industrias Informe de noticias Tecnología
Blast lanza el tercer evento de distribución de Blast Gold y asigna 15 millones de puntos a DApps
10 de mayo de 2024
Espresso Systems colabora con Polygon Labs para desarrollar AggLayer para mejorar la interoperabilidad acumulada
Empresa Informe de noticias Tecnología
Espresso Systems colabora con Polygon Labs para desarrollar AggLayer para mejorar la interoperabilidad acumulada
9 de mayo de 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.