Novice
Oktober 21, 2022

Google AI je predstavil prvi generator besedila v glasbo AudioLM

Na kratko

AudioLM lahko ustvarja glasbo samo s poslušanjem zvokov

Mubert AI za nadaljevanje človeškega govora in klavirske glasbe

z GPT-3 in drugi, ima zamisel o generativni AI dobre možnosti za napredek. Odkrivali smo tudi pojma inpainting in outpainting; AI spretno dopolnjuje slike, hkrati pa ohranja temo in slog. Kaj pa glasba?

In še enkrat! Ker vse to temelji na jezikovnih modelih AI, ki ohranjajo pomen, je bilo samo vprašanje časa, kdaj bo ta tehnologija uporabljena v glasbi. In zdaj je prišel čas.

Google AI je predstavil prvi generator besedila v glasbo AudioLM

Glede na nedavno Googlovo raziskavo se lahko nov okvir za avdio produkcijo, imenovan AudioLM, nauči ustvarjati realističen govor in klavirsko glasbo preprosto s poslušanjem zvokov. Zaradi svoje dolgoročne konsistentnosti in odlične zvestobe AudioLM prekaša prejšnje sisteme in napreduje pri ustvarjanju zvoka z aplikacijami za glasovno sintezo in računalniško podprto glasbo.

Razvili smo sistem za prepoznavanje sintetičnih zvokov, ki jih proizvaja AudioLM, z uporabo istih konceptov umetne inteligence, ki so bili osnova za ustvarjanje naših prejšnjih modelov.

AudioLM Googlova umetna inteligenca lahko podaljša akustični prehod, pri tem pa ohrani »namen«. Do zdaj je bil usposobljen za nadaljevanje človeškega govora in klavirske glasbe na podlagi omejenega vzorca vhodnih podatkov. Preverite spodnji vzorec.

Merila za govor so bila enostavna: poslušalce so prosili, naj ocenijo, ali je nadaljevanje zvenelo kot človeški govor. Z glasbo je bilo odkrito, da je »nadaljevanje« odseka, ki je bil dobavljen za vnos, po kakovosti veliko boljše od vseh trenutnih glasbenih generatorjev iz nič, kot je npr. JukeBox. S predlogom na vhodu AI precej bolje nadaljuje glasbo.

Google AI je predstavil prvi generator besedila v glasbo AudioLM

Človeški ocenjevalci so poslušali zvočne vzorce, da bi potrdili rezultate. Ugotovili so, ali slišijo pravo nadaljevanje človeškega glasu, ki je bil posnet, ali umetni glas, ki ga je proizvedel AudioLM. Njihovi podatki kažejo na 51.2-odstotno uspešnost. Posledično bo za povprečnega poslušalca težko razlikovati med govorom, ki ga ustvari AudioLM, in dejanskim človeškim govorom.

Ali tehnologija pretvorbe besedila v glasbo spreminja glasbeni posel?

Generator besedila v glasbo, ki temelji na Mubert API je nedavno napovedal drug model AI, Mubert. Mubert ustvari drugačen nabor zvokov za vsako zahtevo, ki jo pošljete. Verjetnost ponovitve je res majhna. Glasba se ustvari, ko je podana zahteva; ni vzet iz baze končanih melodij. Kako zares generativna ta glasba je pogosto vprašanje.

Ali tehnologija pretvorbe besedila v glasbo spreminja glasbeni posel?

Zvoki so izbrani pred ustvarjanjem. Tako vnosni poziv kot oznake Mubert API so kodirane v vektor latentnega prostora transformatorske nevronske mreže. Nato se izbere najbližji vektor oznak za vsako poizvedbo, spremne oznake pa se prenesejo v naš API za ustvarjanje glasbe. Nobena nevronska mreža ni bila uporabljena za izdelavo nobenega od zvokov (ločene zanke za bas, vodila itd.); vse zvoke so producirali glasbeniki in oblikovalci zvoka.

Mubertov naslednji pomemben korak je vzeti predmete iz trenutnega sveta, kot so fotografije, filmi, scenariji in predstavitve, ter ustvariti glasbo sveta okoli vas.

Evo, kaj lahko dobite, če nepremišljeno položite besedilne pozive v usta glasbenega Muberta AI:

To je začetna faza v procesu izgradnje bolj izpopolnjenega in natančnega algoritma za generiranje, vendar bo to zahtevalo čas in denar.

Vendar je tehnologija pretvorbe besedila v glasbo že na voljo, tako da lahko ustvarjate albume v velikem obsegu, tako da izklopite »vnosni poziv« za »napišite naključni pozivni skript«. Zdi se, da umetniki niso več potrebni.

Preberite več povezanih novic:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

več člankov
Damir Yalalov
Damir Yalalov

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

Institucionalni apetit raste proti Bitcoin ETF-jem sredi volatilnosti

Razkritja prek vlog 13F razkrivajo pomembne institucionalne vlagatelje, ki se ukvarjajo z Bitcoin ETF, kar poudarja vse večje sprejemanje ...

Več o tem

Prihaja dan obsodbe: usoda CZ visi na ravnovesju, ko ameriško sodišče obravnava tožbeni razlog DOJ

Changpeng Zhao se danes sooča z obsodbo na ameriškem sodišču v Seattlu.

Več o tem
Pridružite se naši inovativni tehnološki skupnosti
Preberi več
Preberi več
Injective združuje moči z AltLayer, da bi v inEVM prinesel varnost preoblikovanja
ŽELITE POSTATI PARTNER Novice Tehnologija
Injective združuje moči z AltLayer, da bi v inEVM prinesel varnost preoblikovanja
Maj 3, 2024
Masa se združuje s podjetjem Teller, da uvede MASA Lending Pool, ki omogoča izposojo USDC na osnovi
Prisotnost Novice Tehnologija
Masa se združuje s podjetjem Teller, da uvede MASA Lending Pool, ki omogoča izposojo USDC na osnovi
Maj 3, 2024
Velodrome v prihodnjih tednih lansira različico Superchain Beta in se širi po verigah blokov plasti 2 sklada OP
Prisotnost Novice Tehnologija
Velodrome v prihodnjih tednih lansira različico Superchain Beta in se širi po verigah blokov plasti 2 sklada OP
Maj 3, 2024
CARV napoveduje partnerstvo z Aethirjem za decentralizacijo njegove podatkovne plasti in razdeljevanje nagrad
ŽELITE POSTATI PARTNER Novice Tehnologija
CARV napoveduje partnerstvo z Aethirjem za decentralizacijo njegove podatkovne plasti in razdeljevanje nagrad
Maj 3, 2024
CRYPTOMERIA LABS PTE. LTD.