Rapport de nouvelles Technologie
15 février 2023

SingSong : des chercheurs de Google AI trouvent un moyen de générer de la musique pour accompagner les voix d'entrée

En bref

Le nouveau système appelé SingSong utilise une modèle d'apprentissage pour générer une musique plus en phase avec le chant que les systèmes existants.

Les chercheurs disent que le système pourrait être utilisé pour créer des pistes de karaoké pour les chanteurs professionnels ou pour aider les chanteurs amateurs à trouver un accompagnement qui correspond à leur voix.

Des chercheurs de Google ont trouvé un moyen d'utiliser l'intelligence artificielle pour générer de la musique compatible avec le chant. Le nouveau système, appelé SingSong, utilise un modèle d'apprentissage en profondeur pour générer un accompagnement plus en phase avec le chant que les autres systèmes existants. Les chercheurs disent que le système pourrait être utilisé pour créer des pistes de karaoké pour les chanteurs professionnels ou pour aider les chanteurs amateurs à trouver un accompagnement qui correspond mieux à leur voix.

Karaoké à l'envers : des chercheurs en intelligence artificielle trouvent un moyen de générer de la musique pour chanter
Les systèmes précédents pour générer un accompagnement reposaient sur des algorithmes qui essayaient de faire correspondre le timing et la hauteur du chant.

ChanterChanson est un système développé par Google qui crée de la musique instrumentale pour accompagner les voix d'entrée. Cela peut fournir aux musiciens et aux non-musiciens une nouvelle approche simple pour faire de la musique qui comporte leurs propres voix. Les développeurs s'appuient sur les avancées récentes en matière de séparation de sources musicales et de production audio pour y parvenir. Les développeurs utilisent spécifiquement une méthode de séparation de source de pointe pour créer des paires de sources vocales et instrumentales alignées à partir d'un corpus massif d'enregistrements musicaux. Ensuite, les développeurs modifient AudioLM, une méthode de pointe pour la production audio inconditionnelle, afin qu'elle puisse être entraînée sur des paires séparées par des sources (vocales, instrumentales) pour des tâches de génération conditionnelle « audio à audio ».

Poste recommandé: Top 5 des générateurs de musique et d'audio AI pour créer des pistes libres de droits

Les chercheurs en IA étudient différentes caractéristiques des entrées vocales, dont la meilleure améliore les performances quantitatives sur les voix isolées de 53 % par rapport à la caractéristiques AudioLM par défaut, afin d'améliorer la généralisation du système à partir de données d'entraînement séparées par la source (où les voix contiennent des artefacts de la instrumental) aux développeurs vocaux isolés auxquels les utilisateurs pourraient s'attendre. Les auditeurs ont montré une préférence substantielle pour les instrumentaux produits par SingSong par rapport à ceux d'une base de récupération solide dans une comparaison par paires avec les mêmes entrées vocales.

Le nouveau système, en revanche, utilise un modèle d'apprentissage en profondeur qui a été formé sur un grand ensemble de données de musique. Cela permet au système de générer un accompagnement synchronisé avec la voix et le timing du chanteur.

Pour l'étude, les auditeurs reçoivent deux mashups vocaux-instrumentaux de 10 secondes dans lesquels les voix (tirées du test MUSDB18) sont les mêmes tandis que les instrumentaux diffèrent et proviennent de diverses sources (vérité terrain, modèles Google, ou lignes de base). La question demande aux auditeurs de choisir laquelle des deux combinaisons leur semble la plus adaptée au chant.

Poste recommandé: Top 7 des générateurs de voix AI et du clonage de voix pour la synthèse vocale

Nouveaux exemples de SingSong

En utilisant une série de réseaux neuronaux profonds et modèles génératifs, les développeurs sont capables de produire des accompagnements harmoniques sans latence pour des segments plus longs.

Les voix professionnelles du jeu de données MUSDB18 ont été utilisées dans les exemples précédents. Nous sommes également intrigués par la capacité de SingSong à soutenir et à permettre à quiconque de créer de la musique avec sa voix. Ici, nous examinons cela à l'aide d'échantillons vocaux de l'ensemble de données Vocadito, qui comprend des enregistrements de chanteurs amateurs réalisés sur de l'électronique grand public.

Le système en est encore aux premiers stades de développement. Alors que les chercheurs disent qu'il devra être amélioré avant de pouvoir être utilisé commercialement, ils pensent qu'il a le potentiel de révolutionner l'industrie du karaoké et d'aider les chanteurs amateurs à trouver un accompagnement qui leur convient.

Lire plus d'articles connexes:

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

Plus d'articles
Damir Yalalov
Damir Yalalov

Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet. 

L’appétit institutionnel augmente pour les ETF Bitcoin dans un contexte de volatilité

Les divulgations via les dépôts 13F révèlent que des investisseurs institutionnels notables se sont lancés dans les ETF Bitcoin, soulignant une acceptation croissante de...

En savoir plus

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Injective s'associe à AltLayer pour apporter la restauration de la sécurité à inEVM
La Brochure Rapport de nouvelles Technologie
Injective s'associe à AltLayer pour apporter la restauration de la sécurité à inEVM
3 mai 2024
Masa s'associe à Teller pour présenter le pool de prêts MASA et permettre à l'USDC d'emprunter sur la base
Marchés Rapport de nouvelles Technologie
Masa s'associe à Teller pour présenter le pool de prêts MASA et permettre à l'USDC d'emprunter sur la base
3 mai 2024
Velodrome lance la version bêta de Superchain dans les semaines à venir et s'étend aux blockchains OP Stack Layer 2
Marchés Rapport de nouvelles Technologie
Velodrome lance la version bêta de Superchain dans les semaines à venir et s'étend aux blockchains OP Stack Layer 2
3 mai 2024
CARV annonce un partenariat avec Aethir pour décentraliser sa couche de données et distribuer des récompenses
La Brochure Rapport de nouvelles Technologie
CARV annonce un partenariat avec Aethir pour décentraliser sa couche de données et distribuer des récompenses
3 mai 2024
CRYPTOMERIA LABS PTE. LTD.