SingSong: los investigadores de IA de Google encuentran una manera de generar música para acompañar las voces de entrada
En Resumen
El nuevo sistema llamado SingSong utiliza un profundo modelo de aprendizaje para generar música que esté más sincronizada con el canto que los sistemas existentes.
Los investigadores dicen que el sistema podría usarse para crear pistas de karaoke para cantantes profesionales o para ayudar a los cantantes aficionados a encontrar un acompañamiento que coincida con sus voces.
Investigadores de Google han encontrado una forma de utilizar la inteligencia artificial para generar música compatible con el canto. El nuevo sistema, llamado SingSong, utiliza un modelo de aprendizaje profundo para generar un acompañamiento que está más sincronizado con el canto que otros sistemas existentes. Los investigadores dicen que el sistema podría usarse para crear pistas de karaoke para cantantes profesionales o para ayudar a los cantantes aficionados a encontrar el acompañamiento que mejor se adapte a sus voces.
Cantar la canción es un sistema desarrollado por Google que crea música instrumental para acompañar las voces de entrada. Puede proporcionar tanto a músicos como a no músicos un nuevo y simple enfoque para hacer música que presente sus propias voces. Los desarrolladores se basan en los avances recientes en la separación de fuentes musicales y la producción de audio para lograrlo. Los desarrolladores utilizan específicamente un método de separación de fuentes de última generación para crear pares de fuentes vocales e instrumentales alineadas a partir de un corpus masivo de grabaciones musicales. Luego, los desarrolladores modifican AudioLM, un método de vanguardia para la producción de audio incondicional, de modo que pueda entrenarse en pares separados por fuentes (vocales, instrumentales) para tareas de generación de "audio a audio" condicional.
Post recomendado: Los 5 mejores generadores de música y audio con IA para crear pistas sin derechos de autor |
Los investigadores de IA investigan diferentes características de las entradas vocales, la mejor de las cuales mejora el rendimiento cuantitativo en voces aisladas en un 53 % en comparación con la característica AudioLM predeterminada, para mejorar la generalización del sistema a partir de datos de entrenamiento separados por fuentes (donde las voces contienen artefactos del instrumental) a voces aisladas que los desarrolladores podrían esperar de los usuarios. Los oyentes exhibieron una preferencia sustancial por los instrumentos producidos por SingSong sobre aquellos de una base de recuperación fuerte en una comparación por pares con las mismas entradas de voz.
El nuevo sistema, por el contrario, utiliza un modelo de aprendizaje profundo que ha sido entrenado en un gran conjunto de datos de música. Esto permite que el sistema genere un acompañamiento sincronizado con la voz y el tiempo del cantante.
Para el estudio, a los oyentes se les ofrecen dos combinaciones vocales-instrumentales de 10 segundos en las que las voces (tomadas de la prueba MUSDB18) son las mismas mientras que las instrumentales difieren y provienen de varias fuentes (verdad sobre el terreno, modelos de google, o líneas de base). La pregunta pide a los oyentes que elijan cuál de las dos combinaciones sienten que los acompañamientos instrumentales se ajustan más musicalmente a la voz.
Nuevos ejemplos de SingSong
Mediante el uso de una serie de redes neuronales profundas y modelos generativos, los desarrolladores pueden producir acompañamientos armónicos sin latencia para segmentos más largos.
Las voces profesionales del conjunto de datos MUSDB18 se utilizaron en los ejemplos anteriores. También estamos intrigados por la capacidad de SingSong para apoyar y permitir que cualquier persona cree música con su voz. Aquí, examinamos esto utilizando muestras vocales del conjunto de datos de Vocadito, que incluye grabaciones de vocalistas aficionados realizadas en dispositivos electrónicos de consumo.
El sistema aún se encuentra en las primeras etapas de desarrollo. Si bien los investigadores dicen que deberá mejorarse antes de que pueda usarse comercialmente, creen que tiene el potencial de revolucionar la industria del karaoke y ayudar a los cantantes aficionados a encontrar un acompañamiento que funcione bien para ellos.
Leer más artículos relacionados:
Observación
En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.
Sobre el Autor
Damir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.
Más artículosDamir es el líder del equipo, gerente de producto y editor en Metaverse Post, que cubre temas como AI/ML, AGI, LLM, Metaverse y Web3-campos relacionados. Sus artículos atraen una audiencia masiva de más de un millón de usuarios cada mes. Parece ser un experto con 10 años de experiencia en SEO y marketing digital. Damir ha sido mencionado en Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto y otras publicaciones. Viaja entre los Emiratos Árabes Unidos, Turquía, Rusia y la CEI como nómada digital. Damir obtuvo una licenciatura en física, que él cree que le ha dado las habilidades de pensamiento crítico necesarias para tener éxito en el panorama siempre cambiante de Internet.