Новини
Октомври 21, 2022

Google AI обяви първия по рода си генератор на текст към музика AudioLM

Накратко

AudioLM може да създава музика само като слуша звуци

Mubert AI да продължи човешката реч и музиката на пиано

с GPT-3 и други, идеята за генериращ AI има добри шансове да продължи напред. Открихме и понятията inpainting и outpainting; AI умело завършва изображенията, като запазва темата и стила. Ами музиката?

И пак! Тъй като всичко това се основава на AI езикови модели, които запазват смисъла, беше само въпрос на време тази технология да бъде приложена към музиката. И сега моментът дойде.

Google AI обяви първия по рода си генератор на текст към музика AudioLM

Според скорошно проучване на Google, нова рамка за аудио продукция, наречена AudioLM, може да бъде научена да създава реалистична реч и пиано музика просто чрез слушане на звуци. Благодарение на своята дългосрочна последователност и отлична прецизност, AudioLM надминава по-ранните системи и усъвършенства създаването на аудио с приложения за гласов синтез и компютърно подпомагана музика.

Разработихме система за разпознаване на произведени от AudioLM синтетични звуци, използвайки същите AI концепции, които са в основата на създаването на предишните ни модели.

AudioLM от Google AI може да удължи акустичен пасаж, като същевременно запази „намерението“. Към момента той е обучен да продължава човешка реч и музика на пиано въз основа на ограничена извадка от входни данни. Вижте примера по-долу.

Критериите за реч бяха ясни: Слушателите бяха помолени да преценят дали продължението звучи като човешка реч. С музиката беше открито, че „продължението“ на секцията, предоставена за въвеждане, е много по-добро по качество от всички настоящи музикални генератори от нулата, като напр. джубокс. С предложение на входа AI продължава музиката значително по-добре.

Google AI обяви първия по рода си генератор на текст към музика AudioLM

Човешките оценители слушаха аудио проби, за да потвърдят резултатите. Те определиха дали чуват истинско продължение на човешки глас, който е записан, или изкуствен глас, произведен от AudioLM. Техните данни показват 51.2% успех. В резултат на това ще бъде предизвикателство за обикновения слушател да прави разлика между речта, произведена от AudioLM, и действителната човешка реч.

Технологията за текст към музика променя ли музикалния бизнес?

Генератор на текст към музика, базиран на Mubert API беше наскоро обявен от друг AI модел, Mubert. Mubert създава различен набор от звуци за всяка заявка, която изпращате. Вероятността за повторение е наистина малка. Музиката се създава, когато се направи заявка; не се изтегля от база данни с готови мелодии. Колко наистина генеративна тази музика е често срещан въпрос.

Технологията за текст към музика променя ли музикалния бизнес?

Звуците се избират преди да бъдат създадени. И подканата за въвеждане, и таговете на Mubert API са кодирани към латентния пространствен вектор на трансформаторна невронна мрежа. След това се избира най-близкият вектор на тагове за всяка заявка и придружаващите тагове се предават на нашия API за създаване на музика. Не е използвана невронна мрежа за конструиране на нито един от звуците (отделни цикли за бас, солове и т.н.); всички звуци са произведени от музиканти и звукови дизайнери.

Следващата важна стъпка на Mubert е да вземе елементи от текущия свят, като снимки, филми, сценарии и презентации, и да създаде музиката на света около вас.

Ето какво можете да получите, като безразсъдно поставите текстови подкани в устата на музикалния Mubert AI:

Това е началният етап от процеса на изграждане на по-сложен и прецизен алгоритъм за генериране, но това ще отнеме време и пари.

Технологията за текст-към-музика обаче вече е налична, така че можете да генерирате албуми групово, като изключите „подкана за въвеждане“ за „напишете произволен скрипт за подкана“. Изглежда вече не са необходими артисти.

Прочетете още свързани новини:

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Още статии
Дамир Ялалов
Дамир Ялалов

Дамир е ръководител на екип, продуктов мениджър и редактор в Metaverse Post, обхващащи теми като AI/ML, AGI, LLMs, Metaverse и Web3- свързани полета. Статиите му привличат огромна аудитория от над милион потребители всеки месец. Изглежда, че е експерт с 10 години опит в SEO и дигитален маркетинг. Дамир е споменат в Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto и други публикации. Той пътува между ОАЕ, Турция, Русия и ОНД като дигитален номад. Дамир получава бакалавърска степен по физика, която според него му е дала уменията за критично мислене, необходими за успех в непрекъснато променящия се пейзаж на интернет. 

Hot Stories
Присъединете се към нашия бюлетин.
Последни новини

Институционалният апетит нараства към биткойн ETF на фона на волатилност

Оповестяванията чрез документи 13F разкриват забележителни институционални инвеститори, занимаващи се с биткойн ETF, което подчертава нарастващото приемане на...

Научете още

Пристига денят на присъдата: Съдбата на CZ виси на равновесие, докато американският съд разглежда молбата на DOJ

Changpeng Zhao е готов да бъде осъден днес в американски съд в Сиатъл.

Научете още
Присъединете се към нашата иновативна техническа общност
Вижте повече
Прочети повече
Injective обединява усилията си с AltLayer, за да внесе повторно залагане на сигурност в inEVM
Бизнес Новини Технологии
Injective обединява усилията си с AltLayer, за да внесе повторно залагане на сигурност в inEVM
Май 3, 2024
Masa се обединява с Teller, за да въведе MASA Lending Pool, позволяващ USDC заемане на база
пазари Новини Технологии
Masa се обединява с Teller, за да въведе MASA Lending Pool, позволяващ USDC заемане на база
Май 3, 2024
Velodrome пуска бета версия на Superchain през следващите седмици и се разширява в OP Stack Layer 2 Blockchains
пазари Новини Технологии
Velodrome пуска бета версия на Superchain през следващите седмици и се разширява в OP Stack Layer 2 Blockchains
Май 3, 2024
CARV обявява партньорство с Aethir за децентрализиране на своя слой данни и разпределяне на награди
Бизнес Новини Технологии
CARV обявява партньорство с Aethir за децентрализиране на своя слой данни и разпределяне на награди
Май 3, 2024
CRYPTOMERIA LABS PTE. LTD.