SingSong: els investigadors de Google AI troben una manera de generar música per acompanyar les veus d'entrada
En breu
El nou sistema anomenat SingSong utilitza un profund model d'aprenentatge per generar música més sincronitzada amb el cant que els sistemes existents.
Els investigadors diuen que el sistema es podria utilitzar per crear pistes de karaoke per a cantants professionals o per ajudar els cantants aficionats a trobar un acompanyament que coincideixi amb les seves veus.
Els investigadors de Google han trobat una manera d'utilitzar la intel·ligència artificial per generar música compatible amb el cant. El nou sistema, anomenat SingSong, utilitza un model d'aprenentatge profund per generar un acompanyament més sincronitzat amb el cant que altres sistemes existents. Els investigadors diuen que el sistema es podria utilitzar per crear pistes de karaoke per a cantants professionals o per ajudar els cantants aficionats a trobar un acompanyament que s'ajusti millor a les seves veus.
Cantar la cançó és un sistema desenvolupat per Google que crea música instrumental per acompanyar les veus d'entrada. Pot proporcionar tant als músics com als no músics un nou enfocament senzill per fer música que tingui la seva pròpia veu. Els desenvolupadors es basen en els avenços recents en la separació de fonts musicals i la producció d'àudio per aconseguir-ho. Els desenvolupadors utilitzen específicament un mètode de separació de fonts d'avantguarda per crear parells de fonts vocals i instrumentals alineades a partir d'un corpus massiu d'enregistraments musicals. Aleshores, els desenvolupadors modifiquen AudioLM, un mètode d'avantguarda per a la producció d'àudio incondicional, de manera que es pugui entrenar en parelles separades per font (vocals, instrumentals) per a tasques condicionals de generació d'àudio a àudio.
Publicació recomanada: Els 5 millors generadors d'àudio i música d'IA per crear pistes lliures de drets d'autor |
Els investigadors d'IA investiguen diferents caracteritzacions de les entrades vocals, la millor de les quals millora el rendiment quantitatiu de les veus aïllades en un 53% en comparació amb la característica AudioLM predeterminada, per tal de millorar la generalització del sistema a partir de dades d'entrenament separades per font (on les veus contenen artefactes del instrumental) a veus aïllades que els desenvolupadors poden esperar dels usuaris. Els oients van mostrar una preferència substancial pels instruments produïts per SingSong sobre els d'una forta línia de base de recuperació en una comparació per parelles amb les mateixes entrades de veu.
El nou sistema, en canvi, utilitza a model d'aprenentatge profund que ha estat entrenat en un gran conjunt de dades de música. Això permet que el sistema generi un acompanyament que estigui sincronitzat amb la veu i el temps del cantant.
Per a l'estudi, els oients reben dos mashups vocal-instrumentals de 10 segons en els quals les veus (preses del test MUSDB18) són les mateixes, mentre que els instrumentals difereixen i provenen de diverses fonts (veritat bàsica, models de google, o línies de base). La pregunta demana als oients que escullin quina de les dues combinacions creuen que els suports instrumentals s'ajusten més musicalment a la veu.
Publicació recomanada: Els 7 millors generadors de veu d'IA i clonació de veu per a la conversió de text a veu |
Exemples frescos de SingSong
Mitjançant l'ús d'una sèrie de xarxes neuronals profundes i models generatius, els desenvolupadors són capaços de produir acompanyaments harmònics sense latència per a segments més llargs.
En els exemples anteriors es van utilitzar les veus professionals del conjunt de dades MUSDB18. També estem intrigats per la capacitat de SingSong per donar suport i permetre que qualsevol persona creï música amb la seva veu. Aquí, ho examinem mitjançant mostres vocals del conjunt de dades Vocadito, que inclou enregistraments de vocalistes aficionats fets amb electrònica de consum.
El sistema encara es troba en les primeres etapes de desenvolupament. Tot i que els investigadors diuen que caldrà millorar-lo abans que es pugui utilitzar comercialment, creuen que té el potencial de revolucionar la indústria del karaoke i ajudar els cantants aficionats a trobar un acompanyament que els funcioni bé.
Llegeix més articles relacionats:
renúncia
En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.
About The Autor
Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.
més articlesDamir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.