Novinky Technika
Února 15, 2023

SingSong: Výzkumníci Google AI našli způsob, jak generovat hudbu, která by doprovázela vstupní vokály

Stručně

Nový systém s názvem SingSong používá deep model učení vytvářet hudbu, která je více synchronizovaná se zpěvem než stávající systémy.

Vědci tvrdí, že systém by mohl být použit k vytváření karaoke stop pro profesionální zpěváky nebo k pomoci amatérským zpěvákům najít doprovod, který odpovídá jejich hlasu.

Vědci z Googlu našli způsob, jak využít umělou inteligenci ke generování hudby, která je kompatibilní se zpěvem. Nový systém nazvaný SingSong využívá model hlubokého učení ke generování doprovodu, který je více synchronizovaný se zpěvem než jiné stávající systémy. Výzkumníci říkají, že systém by mohl být použit k vytváření karaoke stop pro profesionální zpěváky nebo k pomoci amatérským zpěvákům najít doprovod, který lépe odpovídá jejich hlasu.

Karaoke obráceně: Výzkumníci AI našli způsob, jak generovat hudbu pro zpěv
Předchozí systémy pro generování doprovodu se spoléhaly na algoritmy, které se snaží sladit načasování a výšku zpěvu.

Zpívat píseň je systém vyvinutý společností Google, který vytváří instrumentální hudbu doprovázející vstupní vokály. Může poskytnout hudebníkům i nehudebníkům jednoduchý nový přístup k tvorbě hudby, která obsahuje jejich vlastní hlasy. Vývojáři staví na nedávných pokrokech v oddělení hudebních zdrojů a audio produkci, aby toho dosáhli. Vývojáři konkrétně používají špičkovou metodu separace zdrojů k vytvoření zarovnaných vokálních a instrumentálních zdrojových párů z masivního korpusu hudebních nahrávek. Poté vývojáři upraví AudioLM, špičková metoda pro bezpodmínečnou audio produkci, takže ji lze trénovat na zdrojově oddělených (vokálních, instrumentálních) párech pro podmíněné úlohy generování „audio-to-audio“.

Doporučený příspěvek: 5 nejlepších hudebních a zvukových generátorů umělé inteligence pro vytváření skladeb bez licenčních poplatků

Výzkumníci umělé inteligence zkoumají různé funkce vokálních vstupů, z nichž nejlepší zvyšuje kvantitativní výkon izolovaných vokálů o 53 % ve srovnání s výchozí funkcí AudioLM, aby se zlepšilo zobecnění systému z tréninkových dat oddělených od zdroje (kde vokály obsahují artefakty instrumentální) až po izolované vokály, které by vývojáři mohli od uživatelů očekávat. Posluchači projevovali podstatnou preferenci instrumentálů produkovaných SingSongem před těmi ze silné základní linie vyhledávání v párovém srovnání se stejnými hlasovými vstupy.

Nový systém naopak využívá a model hlubokého učení který byl trénován na velkém datovém souboru hudby. To umožňuje systému generovat doprovod, který je synchronizován s hlasem a načasováním zpěváka.

Pro studium dostanou posluchači dva 10sekundové vokálně-instrumentální mashupy, ve kterých jsou hlasy (převzaté z testu MUSDB18) stejné, zatímco instrumentálky se liší a pocházejí z různých zdrojů (základní pravda, modely googlenebo základní linie). Otázka žádá posluchače, aby si vybrali, která z těchto dvou kombinací podle nich instrumentální doprovody hudebně pasují k vokálům.

Doporučený příspěvek: 7 nejlepších hlasových generátorů AI a klonování hlasu pro převod textu na řeč

Čerstvé příklady SingSongu

Pomocí řady hlubokých neuronových sítí a generativní modely, jsou vývojáři schopni produkovat harmonické doprovody bez latence pro delší segmenty.

V předchozích příkladech byly použity profesionální hlasy datové sady MUSDB18. Také nás zaujala schopnost SingSong podporovat a umožnit komukoli tvořit hudbu svým hlasem. Zde to zkoumáme pomocí vokálních vzorků z datového souboru Vocadito, který zahrnuje nahrávky amatérských zpěváků pořízené na spotřební elektronice.

Systém je stále v rané fázi vývoje. Zatímco vědci říkají, že bude muset být vylepšen, než bude moci být komerčně použit, věří, že má potenciál způsobit revoluci v karaoke průmyslu a pomoci amatérským zpěvákům najít doprovod, který jim bude dobře fungovat.

Přečtěte si další související články:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Institucionální apetit roste směrem k bitcoinovým ETF uprostřed volatility

Zveřejnění prostřednictvím podání 13F odhaluje, že pozoruhodní institucionální investoři fušují do bitcoinových ETF, což podtrhuje rostoucí akceptaci...

Vědět více

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Injective spojuje síly s AltLayer, aby přineslo zabezpečení při opětovném skládání do inEVM
Business Novinky Technika
Injective spojuje síly s AltLayer, aby přineslo zabezpečení při opětovném skládání do inEVM
3
Masa se spojila s Tellerem, aby zavedla MASA Půjčovací fond, umožní USDC půjčování na základně
Trhy Novinky Technika
Masa se spojila s Tellerem, aby zavedla MASA Půjčovací fond, umožní USDC půjčování na základně
3
Velodrome spouští v nadcházejících týdnech beta verzi Superchain a rozšiřuje se o blockchainy OP Stack Layer 2
Trhy Novinky Technika
Velodrome spouští v nadcházejících týdnech beta verzi Superchain a rozšiřuje se o blockchainy OP Stack Layer 2
3
CARV oznamuje partnerství se společností Aethir za účelem decentralizace její datové vrstvy a distribuce odměn
Business Novinky Technika
CARV oznamuje partnerství se společností Aethir za účelem decentralizace její datové vrstvy a distribuce odměn
3
CRYPTOMERIA LABS PTE. LTD.