SingSong: Výzkumníci Google AI našli způsob, jak generovat hudbu, která by doprovázela vstupní vokály
Stručně
Nový systém s názvem SingSong používá deep model učení vytvářet hudbu, která je více synchronizovaná se zpěvem než stávající systémy.
Vědci tvrdí, že systém by mohl být použit k vytváření karaoke stop pro profesionální zpěváky nebo k pomoci amatérským zpěvákům najít doprovod, který odpovídá jejich hlasu.
Vědci z Googlu našli způsob, jak využít umělou inteligenci ke generování hudby, která je kompatibilní se zpěvem. Nový systém nazvaný SingSong využívá model hlubokého učení ke generování doprovodu, který je více synchronizovaný se zpěvem než jiné stávající systémy. Výzkumníci říkají, že systém by mohl být použit k vytváření karaoke stop pro profesionální zpěváky nebo k pomoci amatérským zpěvákům najít doprovod, který lépe odpovídá jejich hlasu.
Zpívat píseň je systém vyvinutý společností Google, který vytváří instrumentální hudbu doprovázející vstupní vokály. Může poskytnout hudebníkům i nehudebníkům jednoduchý nový přístup k tvorbě hudby, která obsahuje jejich vlastní hlasy. Vývojáři staví na nedávných pokrokech v oddělení hudebních zdrojů a audio produkci, aby toho dosáhli. Vývojáři konkrétně používají špičkovou metodu separace zdrojů k vytvoření zarovnaných vokálních a instrumentálních zdrojových párů z masivního korpusu hudebních nahrávek. Poté vývojáři upraví AudioLM, špičková metoda pro bezpodmínečnou audio produkci, takže ji lze trénovat na zdrojově oddělených (vokálních, instrumentálních) párech pro podmíněné úlohy generování „audio-to-audio“.
Doporučený příspěvek: 5 nejlepších hudebních a zvukových generátorů umělé inteligence pro vytváření skladeb bez licenčních poplatků |
Výzkumníci umělé inteligence zkoumají různé funkce vokálních vstupů, z nichž nejlepší zvyšuje kvantitativní výkon izolovaných vokálů o 53 % ve srovnání s výchozí funkcí AudioLM, aby se zlepšilo zobecnění systému z tréninkových dat oddělených od zdroje (kde vokály obsahují artefakty instrumentální) až po izolované vokály, které by vývojáři mohli od uživatelů očekávat. Posluchači projevovali podstatnou preferenci instrumentálů produkovaných SingSongem před těmi ze silné základní linie vyhledávání v párovém srovnání se stejnými hlasovými vstupy.
Nový systém naopak využívá a model hlubokého učení který byl trénován na velkém datovém souboru hudby. To umožňuje systému generovat doprovod, který je synchronizován s hlasem a načasováním zpěváka.
Pro studium dostanou posluchači dva 10sekundové vokálně-instrumentální mashupy, ve kterých jsou hlasy (převzaté z testu MUSDB18) stejné, zatímco instrumentálky se liší a pocházejí z různých zdrojů (základní pravda, modely googlenebo základní linie). Otázka žádá posluchače, aby si vybrali, která z těchto dvou kombinací podle nich instrumentální doprovody hudebně pasují k vokálům.
Doporučený příspěvek: 7 nejlepších hlasových generátorů AI a klonování hlasu pro převod textu na řeč |
Čerstvé příklady SingSongu
Pomocí řady hlubokých neuronových sítí a generativní modely, jsou vývojáři schopni produkovat harmonické doprovody bez latence pro delší segmenty.
V předchozích příkladech byly použity profesionální hlasy datové sady MUSDB18. Také nás zaujala schopnost SingSong podporovat a umožnit komukoli tvořit hudbu svým hlasem. Zde to zkoumáme pomocí vokálních vzorků z datového souboru Vocadito, který zahrnuje nahrávky amatérských zpěváků pořízené na spotřební elektronice.
Systém je stále v rané fázi vývoje. Zatímco vědci říkají, že bude muset být vylepšen, než bude moci být komerčně použit, věří, že má potenciál způsobit revoluci v karaoke průmyslu a pomoci amatérským zpěvákům najít doprovod, který jim bude dobře fungovat.
Přečtěte si další související články:
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.
Další článkyDamir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu.