SoundStorm: Google presenta una aterradora herramienta de inteligencia artificial capaz de replicar voz en tiempo real
En Resumen
Google ha presentado SoundStorm, un modelo de vanguardia para la generación de audio eficiente y no autorregresivo.
Emplea atención bidireccional y decodificación paralela basada en la confianza para generar audio de alta calidad mientras reduce significativamente el tiempo de generación.
También tiene la capacidad de sintetizar diálogos naturales.
Google ha presentado su último avance en tecnología de inteligencia artificial con tormenta de sonido, un modelo de vanguardia para la generación de audio eficiente y no autorregresivo. con la capacidad de sintetizar diálogos con diferentes voces, SoundStorm abre nuevas posibilidades para aplicaciones como la generación de contenido de audio a partir de texto escrito y la creación de podcasts realistas.
A diferencia de su predecesor AudioLM, SoundStorm emplea una arquitectura novedosa que genera audio en fragmentos de 30 segundos, mejorando la eficiencia. Al utilizar la atención bidireccional y la decodificación paralela basada en la confianza, el modelo produce audio de alta calidad y reduce significativamente el tiempo de generación. En el hardware TPU-v4 de Google, SoundStorm puede generar 30 segundos de audio en solo 0.5 segundos, lo que marca una mejora sustancial en la velocidad.
La capacitación de SoundStorm se llevó a cabo utilizando un conjunto de datos masivo de 100,000 XNUMX horas de diálogo, lo que garantiza una sólida comprensión de los patrones del lenguaje hablado. El modelo logra una consistencia impresionante en las condiciones acústicas y de voz mientras mantiene la calidad de audio lograda por AudioLM. Este avance hace que SoundStorm sea dos órdenes de magnitud más rápido que su predecesor, lo que demuestra su potencial para la generación de audio escalable.
Una de las capacidades clave de SoundStorm es su capacidad para sintetizar diálogos naturales aprovechando la etapa de modelado de texto a semántico de SPEAR-TTS. Al proporcionar transcripciones con turnos de orador e indicaciones breves de voz, los usuarios pueden controlar el contenido hablado y las voces de los oradores. Durante las pruebas, SoundStorm demostró la capacidad de sintetizar segmentos de diálogo de 30 segundos en solo 2 segundos en un solo TPU-v4, mostrando su eficiencia y versatilidad.
Mensaje de voz
Diálogo sintetizado
En comparación con las líneas de base estándar, el audio generado por SoundStorm tiene una calidad equivalente a AudioLM y demuestra una consistencia e integridad acústica superiores. En particular, cuando se le pide que dé una muestra de discurso, el modelo conserva la voz del orador con una precisión asombrosa, lo que aumenta en gran medida su capacidad para generar diálogos realistas.
Si bien las capacidades de SoundStorm son excepcionales, es fundamental reconocer y resolver posibles preocupaciones éticas. Los datos de entrenamiento del algoritmo pueden introducir sesgos relacionados con los acentos y las características de la voz. Se podría abusar de la capacidad de imitar voces para la suplantación o para eludir la identificación biométrica. Google subraya la importancia de implementar protecciones para evitar tales abusos y asegurando la detectabilidad de audio creado a través de clasificadores dedicados.
Los principios éticos de IA de Google impulsan sus continuos esfuerzos para abordar los peligros y limitaciones potenciales. La organización se da cuenta de la necesidad de realizar un estudio exhaustivo de los datos de capacitación y las implicaciones para los resultados del modelo. También planean investigar enfoques adicionales, como la marca de agua de audio, para detectar el habla sintetizada para hacer un uso ético de esta tecnología.
- SoundStorm es un gran paso adelante en la producción de audio impulsada por IA, que proporciona representaciones de audio derivadas de códec de audio neuronal eficientes y de alta calidad. Google espera que las menores necesidades de procesamiento y memoria de SoundStorm hagan que la investigación sobre generación de audio sea más accesible para una comunidad más amplia. Google sigue dedicado a preservar prácticas de IA responsables y garantizar el uso seguro y responsable de SoundStorm y avances comparables en el campo a medida que evoluciona la tecnología.
- VALLE-E, el último modelo de texto a voz (TTS) de Microsoft, es un gran paso adelante para mejorar la forma en que estos sistemas generan voz. VALL-E es un modelo TTS basado en transformadores que pueden generar habla en cualquier voz después de solo escuchar una muestra de tres segundos de esa voz. Este es un gran avance con respecto a los modelos anteriores, que requerían un período de entrenamiento significativamente más largo para desarrollar una nueva voz.
Lea más sobre la IA:
Observación
En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.
Sobre el Autor
Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.
Más artículosDamir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.