SingSong:谷歌 AI 研究人员找到了一种生成音乐来伴奏输入人声的方法
简单来说
名为 SingSong 的新系统采用了深度 学习模式 生成比现有系统与歌唱更加同步的音乐。
研究人员表示,该系统可用于为专业歌手创作卡拉 OK 曲目,或帮助业余歌手找到与他们的声音相匹配的伴奏。
谷歌的研究人员找到了一种方法,可以使用人工智能来生成与歌唱兼容的音乐。 这个名为 SingSong 的新系统使用深度学习模型来生成比其他现有系统更与歌声同步的伴奏。 研究人员表示,该系统可用于为专业歌手创作卡拉 OK 曲目,或帮助业余歌手找到更适合他们声音的伴奏。
唱歌 是谷歌开发的一个系统,可以创建器乐来伴奏输入的人声。 它可以为音乐家和非音乐家提供一种简单的新方法来制作以他们自己的声音为特色的音乐。 开发人员利用音乐源分离和音频制作方面的最新进展来实现这一目标。 开发人员专门使用尖端的源分离方法从大量音乐录音库中构建对齐的声乐和乐器源对。 然后,开发人员修改 音频LM,一种用于无条件音频制作的前沿方法,因此它可以在源分离(声乐,乐器)对上进行训练,用于条件“音频到音频”生成任务。
AI 研究人员研究了声音输入的不同特征,与默认的 AudioLM 特征相比,其中最好的特征将孤立人声的量化性能提高了 53%,以改进系统从源分离训练数据(其中人声包含人声的伪影)的泛化器乐)到开发人员可能期望用户提供的孤立人声。 在与相同语音输入的成对比较中,听众对 SingSong 制作的乐器表现出明显的偏好,而不是来自强大检索基线的乐器。
相比之下,新系统使用 深度学习模型 它已经在大型音乐数据集上进行了训练。 这使得系统能够生成与歌手的声音和时间同步的伴奏。
在这项研究中,听众会收到两个 10 秒的声乐与乐器混搭,其中声音(取自 MUSDB18 测试)相同,而乐器则不同且来自不同的来源(真实情况、 谷歌模型,或基线)。 该问题要求听众选择他们认为乐器背景更适合人声的两种组合中的哪一种。
SingSong的新鲜事例
通过使用一系列深度神经网络和 生成模型,开发人员能够为较长的片段制作无延迟的和声伴奏。
前面的示例中使用了 MUSDB18 数据集的专业声音。 我们也对 SingSong 支持并使任何人都能用自己的声音创作音乐的能力很感兴趣。 在这里,我们使用来自 Vocadito 数据集的声音样本来检查这一点,其中包括在消费电子产品上制作的业余歌手的录音。
该系统仍处于开发的早期阶段。 虽然研究人员表示在将其投入商业使用之前还需要对其进行改进,但他们相信它有可能彻底改变卡拉 OK 行业并帮助业余歌手找到适合他们的伴奏。
阅读更多相关文章:
免责声明
在与行 信托项目指南,请注意,本页提供的信息无意且不应被解释为法律、税务、投资、财务或任何其他形式的建议。 重要的是,仅投资您可以承受损失的金额,并在有任何疑问时寻求独立的财务建议。 如需了解更多信息,我们建议您参阅条款和条件以及发行人或广告商提供的帮助和支持页面。 MetaversePost 致力于提供准确、公正的报告,但市场状况如有变更,恕不另行通知。
关于作者
Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。
更多文章Damir 是团队领导、产品经理和编辑 Metaverse Post,涵盖 AI/ML、AGI、LLM、Metaverse 等主题 Web3- 相关领域。 他的文章每月吸引超过一百万用户的大量读者。 他似乎是一位在 SEO 和数字营销方面拥有 10 年经验的专家。 达米尔曾在 Mashable、Wired、 Cointelegraph、《纽约客》、Inside.com、Entrepreneur、BeInCrypto 和其他出版物。 他作为数字游牧者往返于阿联酋、土耳其、俄罗斯和独联体国家之间。 达米尔获得了物理学学士学位,他认为这赋予了他在不断变化的互联网格局中取得成功所需的批判性思维技能。