SingSong : des chercheurs de Google AI trouvent un moyen de générer de la musique pour accompagner les voix d'entrée
En bref
Le nouveau système appelé SingSong utilise une modèle d'apprentissage pour générer une musique plus en phase avec le chant que les systèmes existants.
Les chercheurs disent que le système pourrait être utilisé pour créer des pistes de karaoké pour les chanteurs professionnels ou pour aider les chanteurs amateurs à trouver un accompagnement qui correspond à leur voix.
Des chercheurs de Google ont trouvé un moyen d'utiliser l'intelligence artificielle pour générer de la musique compatible avec le chant. Le nouveau système, appelé SingSong, utilise un modèle d'apprentissage en profondeur pour générer un accompagnement plus en phase avec le chant que les autres systèmes existants. Les chercheurs disent que le système pourrait être utilisé pour créer des pistes de karaoké pour les chanteurs professionnels ou pour aider les chanteurs amateurs à trouver un accompagnement qui correspond mieux à leur voix.
ChanterChanson est un système développé par Google qui crée de la musique instrumentale pour accompagner les voix d'entrée. Cela peut fournir aux musiciens et aux non-musiciens une nouvelle approche simple pour faire de la musique qui comporte leurs propres voix. Les développeurs s'appuient sur les avancées récentes en matière de séparation de sources musicales et de production audio pour y parvenir. Les développeurs utilisent spécifiquement une méthode de séparation de source de pointe pour créer des paires de sources vocales et instrumentales alignées à partir d'un corpus massif d'enregistrements musicaux. Ensuite, les développeurs modifient AudioLM, une méthode de pointe pour la production audio inconditionnelle, afin qu'elle puisse être entraînée sur des paires séparées par des sources (vocales, instrumentales) pour des tâches de génération conditionnelle « audio à audio ».
Poste recommandé: Top 5 des générateurs de musique et d'audio AI pour créer des pistes libres de droits |
Les chercheurs en IA étudient différentes caractéristiques des entrées vocales, dont la meilleure améliore les performances quantitatives sur les voix isolées de 53 % par rapport à la caractéristiques AudioLM par défaut, afin d'améliorer la généralisation du système à partir de données d'entraînement séparées par la source (où les voix contiennent des artefacts de la instrumental) aux développeurs vocaux isolés auxquels les utilisateurs pourraient s'attendre. Les auditeurs ont montré une préférence substantielle pour les instrumentaux produits par SingSong par rapport à ceux d'une base de récupération solide dans une comparaison par paires avec les mêmes entrées vocales.
Le nouveau système, en revanche, utilise un modèle d'apprentissage en profondeur qui a été formé sur un grand ensemble de données de musique. Cela permet au système de générer un accompagnement synchronisé avec la voix et le timing du chanteur.
Pour l'étude, les auditeurs reçoivent deux mashups vocaux-instrumentaux de 10 secondes dans lesquels les voix (tirées du test MUSDB18) sont les mêmes tandis que les instrumentaux diffèrent et proviennent de diverses sources (vérité terrain, modèles Google, ou lignes de base). La question demande aux auditeurs de choisir laquelle des deux combinaisons leur semble la plus adaptée au chant.
Nouveaux exemples de SingSong
En utilisant une série de réseaux neuronaux profonds et modèles génératifs, les développeurs sont capables de produire des accompagnements harmoniques sans latence pour des segments plus longs.
Les voix professionnelles du jeu de données MUSDB18 ont été utilisées dans les exemples précédents. Nous sommes également intrigués par la capacité de SingSong à soutenir et à permettre à quiconque de créer de la musique avec sa voix. Ici, nous examinons cela à l'aide d'échantillons vocaux de l'ensemble de données Vocadito, qui comprend des enregistrements de chanteurs amateurs réalisés sur de l'électronique grand public.
Le système en est encore aux premiers stades de développement. Alors que les chercheurs disent qu'il devra être amélioré avant de pouvoir être utilisé commercialement, ils pensent qu'il a le potentiel de révolutionner l'industrie du karaoké et d'aider les chanteurs amateurs à trouver un accompagnement qui leur convient.
Lire plus d'articles connexes:
Clause de non-responsabilité
En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.
A propos de l'auteur
Damir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.
Plus d'articlesDamir est chef d'équipe, chef de produit et rédacteur en chef chez Metaverse Post, couvrant des sujets tels que l'IA/ML, l'AGI, les LLM, le métaverse et Web3-domaines connexes. Ses articles attirent une audience massive de plus d'un million d'utilisateurs chaque mois. Il semble être un expert avec 10 ans d'expérience dans le référencement et le marketing numérique. Damir a été mentionné dans Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto et d'autres publications. Il voyage entre les Émirats arabes unis, la Turquie, la Russie et la CEI en tant que nomade numérique. Damir a obtenu un baccalauréat en physique, ce qui, selon lui, lui a donné les compétences de pensée critique nécessaires pour réussir dans le paysage en constante évolution d'Internet.