Google AI tillkännagav den första text-till-musikgeneratorn AudioLM någonsin
I korthet
AudioLM kan producera musik bara genom att lyssna på ljud
Mubert AI för att fortsätta mänskligt tal och pianomusik
Med GPT-3 och andra har idén om generativ AI en god chans att gå framåt. Vi upptäckte också begreppen inpainting och outpainting; AI färdigställer bilderna skickligt samtidigt som temat och stilen behålls. Hur är det med musik?
Och ännu en gång! Eftersom allt detta är baserat på AI-språkmodeller som behåller mening, var det bara en tidsfråga innan denna teknik skulle tillämpas på musik. Och nu har tiden kommit.
Enligt nyare undersökningar från Google kan ett nytt ramverk för ljudproduktion som kallas AudioLM läras ut att skapa realistiskt tal och pianomusik helt enkelt genom att lyssna på ljud. På grund av sin långsiktiga konsekvens och utmärkta trohet överträffar AudioLM tidigare system och utvecklar ljudskapande med applikationer inom röstsyntes och datorstödd musik.
AudioLM från Google AI kan utöka en akustisk passage med bibehållen "avsikt". Från och med nu har den tränats för att fortsätta mänskligt tal och pianomusik, baserat på ett begränsat urval av indata. Kontrollera provet nedan.
Kriterierna för tal var enkla: Lyssnarna ombads bedöma om fortsättningen lät som mänskligt tal. Med musiken upptäckte man att "fortsättningen" av den sektion som levereras för input är vida överlägsen i kvalitet än alla nuvarande musikgeneratorer från grunden, som t.ex. Jukebox. Med ett förslag vid ingången fortsätter AI:n musiken betydligt bättre.
Mänskliga bedömare lyssnade på ljudprover för att bekräfta resultaten. De bestämde om de hörde en riktig fortsättning på en mänsklig röst som hade spelats in eller en konstgjord röst producerad av AudioLM. Deras data indikerar en framgångsfrekvens på 51.2 %. Som ett resultat kommer det att bli utmanande för den genomsnittliga lyssnaren att skilja mellan tal producerat av AudioLM och faktiskt mänskligt tal.
Förändrar text-till-musik-teknik musikbranschen?
En text-till-musik-generator baserad på Mubert API tillkännagavs nyligen av en annan AI-modell, Mubert. Mubert skapar en annan uppsättning ljud för varje förfrågan du skickar. Sannolikheten för en upprepning är väldigt liten. Musik skapas när en förfrågan görs; den hämtas inte från en databas med färdiga låtar. Hur verkligen generativ denna musik det är en vanlig fråga.
Ljud väljs innan de skapas. Både inmatningsprompten och Mubert API-taggarna är kodade till ett transformatorns neurala nätverks latenta rymdvektor. Den närmaste taggvektorn för varje fråga väljs sedan, och de medföljande taggarna överförs till vårt API för att skapa musik. Inget neuralt nätverk användes för att konstruera något av ljuden (separata loopar för bas, leads, etc.); alla ljud producerades av musiker och ljuddesigners.
Muberts nästa viktiga steg är att ta föremål från den nuvarande världen, såsom foton, filmer, scenarier och presentationer, och skapa musiken från världen omkring dig.
Här är vad du kan få genom att vårdslöst lägga textmeddelanden i munnen på musikalen Mubert AI:
Detta är det första steget i processen att bygga en mer sofistikerad och exakt genereringsalgoritm, men detta kommer att ta tid och pengar.
Men text-till-musik-teknik är redan tillgänglig, så du kan generera album i bulk genom att byta ut "input prompt" för "skriv ett slumpmässigt prompt script." Det verkar som om artister inte längre behövs.
Läs fler relaterade nyheter:
Villkor
I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.
Om författaren
Damir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.
fler artiklarDamir är teamledare, produktchef och redaktör på Metaverse Post, som täcker ämnen som AI/ML, AGI, LLMs, Metaverse och Web3-relaterade områden. Hans artiklar lockar en massiv publik på över en miljon användare varje månad. Han verkar vara en expert med 10 års erfarenhet av SEO och digital marknadsföring. Damir har nämnts i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto och andra publikationer. Han reser mellan Förenade Arabemiraten, Turkiet, Ryssland och OSS som en digital nomad. Damir tog en kandidatexamen i fysik, som han tror har gett honom de kritiska tänkande färdigheter som behövs för att bli framgångsrik i det ständigt föränderliga landskapet på internet.