Informe de noticias SMW Tecnología
30 de mayo de 2023

SoundStorm: Google presenta una aterradora herramienta de inteligencia artificial capaz de replicar voz en tiempo real

En Resumen

Google ha presentado SoundStorm, un modelo de vanguardia para la generación de audio eficiente y no autorregresivo.

Emplea atención bidireccional y decodificación paralela basada en la confianza para generar audio de alta calidad mientras reduce significativamente el tiempo de generación.

También tiene la capacidad de sintetizar diálogos naturales.

Google ha presentado su último avance en tecnología de inteligencia artificial con tormenta de sonido, un modelo de vanguardia para la generación de audio eficiente y no autorregresivo. con la capacidad de sintetizar diálogos con diferentes voces, SoundStorm abre nuevas posibilidades para aplicaciones como la generación de contenido de audio a partir de texto escrito y la creación de podcasts realistas.

SoundStorm: Google presenta una aterradora herramienta de inteligencia artificial capaz de replicar voz en tiempo real
@Midjourney

A diferencia de su predecesor AudioLM, SoundStorm emplea una arquitectura novedosa que genera audio en fragmentos de 30 segundos, mejorando la eficiencia. Al utilizar la atención bidireccional y la decodificación paralela basada en la confianza, el modelo produce audio de alta calidad y reduce significativamente el tiempo de generación. En el hardware TPU-v4 de Google, SoundStorm puede generar 30 segundos de audio en solo 0.5 segundos, lo que marca una mejora sustancial en la velocidad.

La capacitación de SoundStorm se llevó a cabo utilizando un conjunto de datos masivo de 100,000 XNUMX horas de diálogo, lo que garantiza una sólida comprensión de los patrones del lenguaje hablado. El modelo logra una consistencia impresionante en las condiciones acústicas y de voz mientras mantiene la calidad de audio lograda por AudioLM. Este avance hace que SoundStorm sea dos órdenes de magnitud más rápido que su predecesor, lo que demuestra su potencial para la generación de audio escalable.

Una de las capacidades clave de SoundStorm es su capacidad para sintetizar diálogos naturales aprovechando la etapa de modelado de texto a semántico de SPEAR-TTS. Al proporcionar transcripciones con turnos de orador e indicaciones breves de voz, los usuarios pueden controlar el contenido hablado y las voces de los oradores. Durante las pruebas, SoundStorm demostró la capacidad de sintetizar segmentos de diálogo de 30 segundos en solo 2 segundos en un solo TPU-v4, mostrando su eficiencia y versatilidad.

Mensaje de voz

Diálogo sintetizado

En comparación con las líneas de base estándar, el audio generado por SoundStorm tiene una calidad equivalente a AudioLM y demuestra una consistencia e integridad acústica superiores. En particular, cuando se le pide que dé una muestra de discurso, el modelo conserva la voz del orador con una precisión asombrosa, lo que aumenta en gran medida su capacidad para generar diálogos realistas.

Si bien las capacidades de SoundStorm son excepcionales, es fundamental reconocer y resolver posibles preocupaciones éticas. Los datos de entrenamiento del algoritmo pueden introducir sesgos relacionados con los acentos y las características de la voz. Se podría abusar de la capacidad de imitar voces para la suplantación o para eludir la identificación biométrica. Google subraya la importancia de implementar protecciones para evitar tales abusos y asegurando la detectabilidad de audio creado a través de clasificadores dedicados.

Los principios éticos de IA de Google impulsan sus continuos esfuerzos para abordar los peligros y limitaciones potenciales. La organización se da cuenta de la necesidad de realizar un estudio exhaustivo de los datos de capacitación y las implicaciones para los resultados del modelo. También planean investigar enfoques adicionales, como la marca de agua de audio, para detectar el habla sintetizada para hacer un uso ético de esta tecnología.

  • SoundStorm es un gran paso adelante en la producción de audio impulsada por IA, que proporciona representaciones de audio derivadas de códec de audio neuronal eficientes y de alta calidad. Google espera que las menores necesidades de procesamiento y memoria de SoundStorm hagan que la investigación sobre generación de audio sea más accesible para una comunidad más amplia. Google sigue dedicado a preservar prácticas de IA responsables y garantizar el uso seguro y responsable de SoundStorm y avances comparables en el campo a medida que evoluciona la tecnología.
  • VALLE-E, el último modelo de texto a voz (TTS) de Microsoft, es un gran paso adelante para mejorar la forma en que estos sistemas generan voz. VALL-E es un modelo TTS basado en transformadores que pueden generar habla en cualquier voz después de solo escuchar una muestra de tres segundos de esa voz. Este es un gran avance con respecto a los modelos anteriores, que requerían un período de entrenamiento significativamente más largo para desarrollar una nueva voz.

Lea más sobre la IA:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Más artículos
Damir Yalalov
Damir Yalalov

Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet. 

Hot Stories
Suscríbase a nuestro boletín.
Últimas Noticias

Llega el día de la sentencia: el destino de CZ pende de un hilo mientras un tribunal de EE. UU. considera la petición del Departamento de Justicia

Changpeng Zhao está listo para enfrentar hoy su sentencia en un tribunal estadounidense en Seattle.

Para saber más

Los fundadores de Samourai Wallet son acusados ​​de facilitar 2 millones de dólares en acuerdos en la Darknet

La detención de los fundadores de Samourai Wallet representa un revés notable para la industria, lo que subraya la persistente...

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
Pantera Capital invierte en TON Blockchain y expresa confianza en el potencial de Telegram para ampliar la accesibilidad a las criptomonedas
Empresa Informe de noticias Tecnología
Pantera Capital invierte en TON Blockchain y expresa confianza en el potencial de Telegram para ampliar la accesibilidad a las criptomonedas
2 de mayo de 2024
Mitosis recauda 7 millones de dólares en financiación de Amber Group y Foresight Ventures para avanzar en su protocolo de liquidez modular
Empresa Informe de noticias Tecnología
Mitosis recauda 7 millones de dólares en financiación de Amber Group y Foresight Ventures para avanzar en su protocolo de liquidez modular
2 de mayo de 2024
Galxe se asocia con Jambo para ampliar la accesibilidad global a Web3
Empresa Informe de noticias Tecnología
Galxe se asocia con Jambo para ampliar la accesibilidad global a Web3
2 de mayo de 2024
Med-Gemini de Google está listo para dar una ventaja a GPT-4 Con su desempeño superior en atención médica
AI Wiki Noticias Software Tecnología
Med-Gemini de Google está listo para dar una ventaja a GPT-4 Con su desempeño superior en atención médica
2 de mayo de 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.