Google AI анонсировала первый в мире генератор преобразования текста в музыку AudioLM
Коротко
AudioLM может создавать музыку, просто слушая звуки
Mubert AI продолжит человеческую речь и фортепианную музыку
Доступно GPT-3 и других, идея генеративного ИИ имеет хорошие шансы на продвижение вперед. Мы также открыли для себя концепции закрашивания и закрашивания; ИИ умело дополняет изображения, сохраняя тему и стиль. А как насчет музыки?
И еще раз! Поскольку все это основано на языковых моделях ИИ, которые сохраняют смысл, применение этой технологии к музыке было лишь вопросом времени. И вот пришло время.
Согласно недавнему исследованию Google, новый фреймворк для создания аудио под названием AudioLM можно научить создавать реалистичную речь и фортепианную музыку, просто слушая звуки. Благодаря своей долговременной согласованности и отличной точности AudioLM превосходит более ранние системы и продвигает создание звука с помощью приложений для синтеза голоса и компьютерной музыки.
АудиоLM от Google ИИ может продлить акустический проход, сохраняя при этом «намерение». На данный момент он обучен воспроизводить человеческую речь и фортепианную музыку на основе ограниченной выборки входных данных. Проверьте образец ниже.
Критерии речи были простыми: слушателей просили оценить, похоже ли продолжение на человеческую речь. С музыкой было обнаружено, что «продолжение» раздела, подаваемого на ввод, намного превосходит по качеству все нынешние музыкальные генераторы с нуля, такие как JukeBox. При подсказке на входе ИИ значительно лучше продолжает музыку.
Оценщики-люди прослушали аудио образцы, чтобы подтвердить результаты. Они определили, слышат ли они реальное продолжение человеческого голоса, которое было записано, или искусственный голос, созданный AudioLM. Их данные показывают 51.2% успеха. В результате обычному слушателю будет сложно отличить речь, воспроизводимую AudioLM, от реальной человеческой речи.
Изменяет ли технология преобразования текста в музыку музыкальный бизнес?
Генератор текста в музыку на основе Муберт API был недавно анонсирован другой моделью ИИ, Mubert. Mubert создает разные наборы звуков для каждого отправляемого вами запроса. Вероятность повторения очень мала. Музыка создается по запросу; он не извлекается из базы данных готовых мелодий. Как на самом деле генеративная эта музыка это общий вопрос.
Звуки выбираются перед созданием. И подсказка ввода, и теги Mubert API закодированы в вектор скрытого пространства нейронной сети преобразователя. Затем выбирается ближайший вектор тегов для каждого запроса, и сопутствующие теги передаются в наш API для создания музыки. Нейронная сеть не использовалась для построения каких-либо звуков (отдельные петли для баса, соло и т. д.); все звуки были созданы музыкантами и звукорежиссерами.
Следующий важный шаг Муберта — брать предметы из текущего мира, такие как фотографии, фильмы, сценарии и презентации, и создавать музыку окружающего мира.
Вот что можно получить, опрометчиво вложив текстовые подсказки в уста музыкального ИИ Муберта:
Это начальный этап в процессе построения более сложного и точного алгоритма генерации, но на это потребуются время и деньги.
Тем не менее, технология преобразования текста в музыку уже доступна, поэтому вы можете создавать альбомы массово, переключая «подсказку ввода» на «написать сценарий случайной подсказки». Кажется, художники больше не нужны.
Читайте больше связанных новостей:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Дамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.
Другие статьиДамир — руководитель группы, менеджер по продукту и редактор в Metaverse Post, охватывающие такие темы, как AI/ML, AGI, LLM, Metaverse и Web3-связанные поля. Его статьи ежемесячно привлекают огромную аудиторию, насчитывающую более миллиона пользователей. Похоже, он эксперт с 10-летним опытом работы в области SEO и цифрового маркетинга. Дамир упоминается в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и другие издания. Он путешествует между ОАЭ, Турцией, Россией и СНГ в качестве цифрового кочевника. Дамир получил степень бакалавра в области физики, что, по его мнению, дало ему навыки критического мышления, необходимые для достижения успеха в постоянно меняющемся мире Интернета.