Google AI обяви първия по рода си генератор на текст към музика AudioLM
Накратко
AudioLM може да създава музика само като слуша звуци
Mubert AI да продължи човешката реч и музиката на пиано
с GPT-3 и други, идеята за генериращ AI има добри шансове да продължи напред. Открихме и понятията inpainting и outpainting; AI умело завършва изображенията, като запазва темата и стила. Ами музиката?
И пак! Тъй като всичко това се основава на AI езикови модели, които запазват смисъла, беше само въпрос на време тази технология да бъде приложена към музиката. И сега моментът дойде.
Според скорошно проучване на Google, нова рамка за аудио продукция, наречена AudioLM, може да бъде научена да създава реалистична реч и пиано музика просто чрез слушане на звуци. Благодарение на своята дългосрочна последователност и отлична прецизност, AudioLM надминава по-ранните системи и усъвършенства създаването на аудио с приложения за гласов синтез и компютърно подпомагана музика.
AudioLM от Google AI може да удължи акустичен пасаж, като същевременно запази „намерението“. Към момента той е обучен да продължава човешка реч и музика на пиано въз основа на ограничена извадка от входни данни. Вижте примера по-долу.
Критериите за реч бяха ясни: Слушателите бяха помолени да преценят дали продължението звучи като човешка реч. С музиката беше открито, че „продължението“ на секцията, предоставена за въвеждане, е много по-добро по качество от всички настоящи музикални генератори от нулата, като напр. джубокс. С предложение на входа AI продължава музиката значително по-добре.
Човешките оценители слушаха аудио проби, за да потвърдят резултатите. Те определиха дали чуват истинско продължение на човешки глас, който е записан, или изкуствен глас, произведен от AudioLM. Техните данни показват 51.2% успех. В резултат на това ще бъде предизвикателство за обикновения слушател да прави разлика между речта, произведена от AudioLM, и действителната човешка реч.
Технологията за текст към музика променя ли музикалния бизнес?
Генератор на текст към музика, базиран на Mubert API беше наскоро обявен от друг AI модел, Mubert. Mubert създава различен набор от звуци за всяка заявка, която изпращате. Вероятността за повторение е наистина малка. Музиката се създава, когато се направи заявка; не се изтегля от база данни с готови мелодии. Колко наистина генеративна тази музика е често срещан въпрос.
Звуците се избират преди да бъдат създадени. И подканата за въвеждане, и таговете на Mubert API са кодирани към латентния пространствен вектор на трансформаторна невронна мрежа. След това се избира най-близкият вектор на тагове за всяка заявка и придружаващите тагове се предават на нашия API за създаване на музика. Не е използвана невронна мрежа за конструиране на нито един от звуците (отделни цикли за бас, солове и т.н.); всички звуци са произведени от музиканти и звукови дизайнери.
Следващата важна стъпка на Mubert е да вземе елементи от текущия свят, като снимки, филми, сценарии и презентации, и да създаде музиката на света около вас.
Ето какво можете да получите, като безразсъдно поставите текстови подкани в устата на музикалния Mubert AI:
Това е началният етап от процеса на изграждане на по-сложен и прецизен алгоритъм за генериране, но това ще отнеме време и пари.
Технологията за текст-към-музика обаче вече е налична, така че можете да генерирате албуми групово, като изключите „подкана за въвеждане“ за „напишете произволен скрипт за подкана“. Изглежда вече не са необходими артисти.
Прочетете още свързани новини:
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.
Още статииДамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет.