Informe de notícies Tecnologia
Febrer 15, 2023

SingSong: els investigadors de Google AI troben una manera de generar música per acompanyar les veus d'entrada

En breu

El nou sistema anomenat SingSong utilitza un profund model d'aprenentatge per generar música més sincronitzada amb el cant que els sistemes existents.

Els investigadors diuen que el sistema es podria utilitzar per crear pistes de karaoke per a cantants professionals o per ajudar els cantants aficionats a trobar un acompanyament que coincideixi amb les seves veus.

Els investigadors de Google han trobat una manera d'utilitzar la intel·ligència artificial per generar música compatible amb el cant. El nou sistema, anomenat SingSong, utilitza un model d'aprenentatge profund per generar un acompanyament més sincronitzat amb el cant que altres sistemes existents. Els investigadors diuen que el sistema es podria utilitzar per crear pistes de karaoke per a cantants professionals o per ajudar els cantants aficionats a trobar un acompanyament que s'ajusti millor a les seves veus.

Karaoke al revés: els investigadors d'IA troben una manera de generar música per cantar
Els sistemes anteriors per generar acompanyament s'han basat en algorismes que intenten fer coincidir el temps i el to del cant.

Cantar la cançó és un sistema desenvolupat per Google que crea música instrumental per acompanyar les veus d'entrada. Pot proporcionar tant als músics com als no músics un nou enfocament senzill per fer música que tingui la seva pròpia veu. Els desenvolupadors es basen en els avenços recents en la separació de fonts musicals i la producció d'àudio per aconseguir-ho. Els desenvolupadors utilitzen específicament un mètode de separació de fonts d'avantguarda per crear parells de fonts vocals i instrumentals alineades a partir d'un corpus massiu d'enregistraments musicals. Aleshores, els desenvolupadors modifiquen AudioLM, un mètode d'avantguarda per a la producció d'àudio incondicional, de manera que es pugui entrenar en parelles separades per font (vocals, instrumentals) per a tasques condicionals de generació d'àudio a àudio.

Publicació recomanada: Els 5 millors generadors d'àudio i música d'IA per crear pistes lliures de drets d'autor

Els investigadors d'IA investiguen diferents caracteritzacions de les entrades vocals, la millor de les quals millora el rendiment quantitatiu de les veus aïllades en un 53% en comparació amb la característica AudioLM predeterminada, per tal de millorar la generalització del sistema a partir de dades d'entrenament separades per font (on les veus contenen artefactes del instrumental) a veus aïllades que els desenvolupadors poden esperar dels usuaris. Els oients van mostrar una preferència substancial pels instruments produïts per SingSong sobre els d'una forta línia de base de recuperació en una comparació per parelles amb les mateixes entrades de veu.

El nou sistema, en canvi, utilitza a model d'aprenentatge profund que ha estat entrenat en un gran conjunt de dades de música. Això permet que el sistema generi un acompanyament que estigui sincronitzat amb la veu i el temps del cantant.

Per a l'estudi, els oients reben dos mashups vocal-instrumentals de 10 segons en els quals les veus (preses del test MUSDB18) són les mateixes, mentre que els instrumentals difereixen i provenen de diverses fonts (veritat bàsica, models de google, o línies de base). La pregunta demana als oients que escullin quina de les dues combinacions creuen que els suports instrumentals s'ajusten més musicalment a la veu.

Publicació recomanada: Els 7 millors generadors de veu d'IA i clonació de veu per a la conversió de text a veu

Exemples frescos de SingSong

Mitjançant l'ús d'una sèrie de xarxes neuronals profundes i models generatius, els desenvolupadors són capaços de produir acompanyaments harmònics sense latència per a segments més llargs.

En els exemples anteriors es van utilitzar les veus professionals del conjunt de dades MUSDB18. També estem intrigats per la capacitat de SingSong per donar suport i permetre que qualsevol persona creï música amb la seva veu. Aquí, ho examinem mitjançant mostres vocals del conjunt de dades Vocadito, que inclou enregistraments de vocalistes aficionats fets amb electrònica de consum.

El sistema encara es troba en les primeres etapes de desenvolupament. Tot i que els investigadors diuen que caldrà millorar-lo abans que es pugui utilitzar comercialment, creuen que té el potencial de revolucionar la indústria del karaoke i ajudar els cantants aficionats a trobar un acompanyament que els funcioni bé.

Llegeix més articles relacionats:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

més articles
Damir Yalalov
Damir Yalalov

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet. 

L'apetit institucional creix cap als ETF de Bitcoin enmig de la volatilitat

Les divulgacions a través de les presentacions 13F revelen inversors institucionals notables que s'estan incursionant en els ETF de Bitcoin, subratllant una acceptació creixent de...

saber Més

Arriba el dia de la sentència: el destí de CZ està en equilibri mentre el tribunal nord-americà considera la petició del DOJ

Changpeng Zhao està a punt d'enfrontar-se avui a la sentència en un tribunal dels Estats Units a Seattle.

saber Més
Uneix-te a la nostra comunitat tecnològica innovadora
Més...
Llegeix més
Injective uneix forces amb AltLayer per aportar seguretat de restauració a inEVM
Negocis Informe de notícies Tecnologia
Injective uneix forces amb AltLayer per aportar seguretat de restauració a inEVM
Pot 3, 2024
Masa s'uneix amb Teller per presentar el grup de préstecs MASA, que permet l'endeutament de l'USDC a la base
mercats Informe de notícies Tecnologia
Masa s'uneix amb Teller per presentar el grup de préstecs MASA, que permet l'endeutament de l'USDC a la base
Pot 3, 2024
Velodrome llança la versió beta de Superchain en les properes setmanes i s'expandeix a les cadenes de blocs de la capa 2 de la pila OP
mercats Informe de notícies Tecnologia
Velodrome llança la versió beta de Superchain en les properes setmanes i s'expandeix a les cadenes de blocs de la capa 2 de la pila OP
Pot 3, 2024
CARV anuncia associació amb Aethir per descentralitzar la seva capa de dades i distribuir recompenses
Negocis Informe de notícies Tecnologia
CARV anuncia associació amb Aethir per descentralitzar la seva capa de dades i distribuir recompenses
Pot 3, 2024
CRYPTOMERIA LABS PTE. LTD.