Raport aktualności Technologia
15 lutego 2023 r.

SingSong: Badacze Google AI znajdują sposób na generowanie muzyki towarzyszącej wokalom

W skrócie

Nowy system o nazwie SingSong wykorzystuje głębię model uczenia się do generowania muzyki bardziej zsynchronizowanej ze śpiewem niż istniejące systemy.

Naukowcy twierdzą, że system może być wykorzystywany do tworzenia utworów karaoke dla profesjonalnych śpiewaków lub pomagania śpiewakom-amatorom w znalezieniu akompaniamentu pasującego do ich głosu.

Naukowcy z Google znaleźli sposób na wykorzystanie sztucznej inteligencji do generowania muzyki, która jest kompatybilna ze śpiewaniem. Nowy system, nazwany SingSong, wykorzystuje model głębokiego uczenia się do generowania akompaniamentu, który jest bardziej zsynchronizowany ze śpiewem niż inne istniejące systemy. Naukowcy twierdzą, że system może być wykorzystywany do tworzenia utworów karaoke dla profesjonalnych śpiewaków lub pomagania śpiewakom-amatorom w znalezieniu akompaniamentu, który lepiej pasuje do ich głosu.

Karaoke w odwrotnej kolejności: naukowcy zajmujący się sztuczną inteligencją znajdują sposób na generowanie muzyki do śpiewania
Poprzednie systemy generowania akompaniamentu opierały się na algorytmach, które próbują dopasować czas i ton śpiewu.

Śpiewać piosenkę to system opracowany przez Google, który tworzy muzykę instrumentalną towarzyszącą wejściowemu wokalowi. Może zapewnić zarówno muzykom, jak i nie-muzykom proste, nowe podejście do tworzenia muzyki, która zawiera ich własne głosy. Aby to osiągnąć, programiści wykorzystują najnowsze osiągnięcia w zakresie separacji źródeł muzycznych i produkcji dźwięku. Deweloperzy wykorzystują najnowocześniejszą metodę separacji źródeł, aby zbudować dopasowane pary źródeł wokalnych i instrumentalnych z ogromnego zbioru nagrań muzycznych. Następnie programiści modyfikują AudioLM, najnowocześniejszą metodę bezwarunkowej produkcji dźwięku, dzięki czemu można ją trenować na parach odseparowanych od źródła (wokal, instrument) do warunkowych zadań generowania „audio-do-audio”.

Polecany post: 5 najlepszych generatorów muzyki i dźwięku AI do tworzenia bezpłatnych utworów

Naukowcy zajmujący się sztuczną inteligencją badają różne charakterystyki wejść wokalnych, z których najlepsza zwiększa ilościową wydajność izolowanych wokali o 53% w porównaniu z domyślną charakterystyką AudioLM, aby poprawić uogólnienie systemu na podstawie danych treningowych odseparowanych od źródła (gdzie wokale zawierają artefakty instrumentalny) do izolowanych wokali, których programiści mogą oczekiwać od użytkowników. Słuchacze wykazywali znaczną preferencję dla utworów instrumentalnych wyprodukowanych przez SingSong nad tymi z silnej linii bazowej wyszukiwania w porównaniu parami z tymi samymi wejściami głosowymi.

Z kolei nowy system wykorzystuje tzw model głębokiego uczenia się który został przeszkolony na dużym zbiorze danych muzycznych. Pozwala to systemowi na generowanie akompaniamentu, który jest zsynchronizowany z głosem i timingiem śpiewaka.

Na potrzeby badania słuchacze otrzymują dwa 10-sekundowe mashupy wokalno-instrumentalne, w których głosy (pobrane z testu MUSDB18) są takie same, natomiast instrumenty różnią się i pochodzą z różnych źródeł (podstawowa prawda, modele Google'alub wartości bazowe). Pytanie prosi słuchaczy o wybranie, która z dwóch kombinacji ich zdaniem podkłady instrumentalne pasują bardziej muzycznie do wokalu.

Polecany post: 7 najlepszych generatorów głosu AI i klonowania głosu do zamiany tekstu na mowę

Świeże przykłady SingSong

Wykorzystując szereg głębokich sieci neuronowych i modele generatywne, programiści są w stanie tworzyć akompaniamenty harmoniczne bez opóźnień w przypadku dłuższych segmentów.

Profesjonalne głosy zestawu danych MUSDB18 zostały użyte w poprzednich przykładach. Intryguje nas również zdolność SingSong do wspierania i umożliwiania każdemu tworzenia muzyki za pomocą głosu. Tutaj badamy to za pomocą próbek wokalnych ze zbioru danych Vocadito, który obejmuje nagrania amatorskich wokalistów wykonane na elektronice użytkowej.

System jest wciąż we wczesnej fazie rozwoju. Chociaż naukowcy twierdzą, że będzie trzeba go ulepszyć, zanim będzie można go używać komercyjnie, wierzą, że ma on potencjał, aby zrewolucjonizować branżę karaoke i pomóc piosenkarzom-amatorom znaleźć odpowiedni dla nich akompaniament.

Przeczytaj więcej powiązanych artykułów:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Injective łączy siły z AltLayer, aby zapewnić bezpieczeństwo ponownego stakowania w inEVM
Biznes Raport aktualności Technologia
Injective łączy siły z AltLayer, aby zapewnić bezpieczeństwo ponownego stakowania w inEVM
3 maja 2024 r.
Masa współpracuje z Tellerem, aby wprowadzić pulę pożyczek MASA, umożliwiającą zaciąganie pożyczek w USDC
rynki Raport aktualności Technologia
Masa współpracuje z Tellerem, aby wprowadzić pulę pożyczek MASA, umożliwiającą zaciąganie pożyczek w USDC
3 maja 2024 r.
Velodrome wprowadza wersję beta Superchain w nadchodzących tygodniach i rozszerza się na łańcuchy bloków warstwy 2 stosu OP
rynki Raport aktualności Technologia
Velodrome wprowadza wersję beta Superchain w nadchodzących tygodniach i rozszerza się na łańcuchy bloków warstwy 2 stosu OP
3 maja 2024 r.
CARV ogłasza partnerstwo z firmą Aethir w celu decentralizacji warstwy danych i dystrybucji nagród
Biznes Raport aktualności Technologia
CARV ogłasza partnerstwo z firmą Aethir w celu decentralizacji warstwy danych i dystrybucji nagród
3 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.