Raport aktualności
21 października 2022 r.

Google AI ogłosiło pierwszy w historii generator tekstu na muzykę AudioLM

W skrócie

AudioLM może tworzyć muzykę po prostu słuchając dźwięków

Mubert AI, aby kontynuować ludzką mowę i muzykę fortepianową

Z GPT-3 i innych, koncepcja generatywnej sztucznej inteligencji ma duże szanse na rozwój. Odkryliśmy także pojęcia inpainting i outpainting; AI umiejętnie uzupełnia obrazy, zachowując temat i styl. Co z muzyką?

I jeszcze raz! Ponieważ wszystko to opiera się na modelach językowych AI, które zachowują znaczenie, było tylko kwestią czasu, zanim ta technologia zostanie zastosowana w muzyce. A teraz nadszedł czas.

Google AI ogłosił pierwszy w historii generator tekstu na muzykę AudioLM

Według ostatnich badań Google, nowy framework do produkcji dźwięku o nazwie AudioLM można nauczyć tworzenia realistycznej mowy i muzyki fortepianowej po prostu przez słuchanie dźwięków. Ze względu na długoterminową spójność i doskonałą wierność AudioLM przewyższa wcześniejsze systemy i rozwija tworzenie dźwięku dzięki aplikacjom w syntezie głosu i muzyce wspomaganej komputerowo.

Opracowaliśmy system rozpoznawania syntetycznych dźwięków wytwarzanych przez AudioLM przy użyciu tych samych koncepcji sztucznej inteligencji, które leżały u podstaw tworzenia naszych poprzednich modeli.

AudioLM z Google AI może przedłużyć pasaż akustyczny, zachowując „intencję”. Na razie został przeszkolony, aby kontynuować ludzką mowę i muzykę fortepianową, w oparciu o ograniczoną próbkę danych wejściowych. Sprawdź próbkę poniżej.

Kryteria mowy były proste: słuchaczy poproszono o ocenę, czy kontynuacja brzmi jak ludzka mowa. W przypadku muzyki odkryto, że „kontynuacja” sekcji dostarczonej do wejścia jest znacznie lepsza jakościowo niż wszystkie obecne generatory muzyki od podstaw, takie jak Szafa grająca. Dzięki sugestii na wejściu sztuczna inteligencja kontynuuje muzykę znacznie lepiej.

Google AI ogłosił pierwszy w historii generator tekstu na muzykę AudioLM

Ludzcy oceniający słuchali próbek audio, aby potwierdzić wyniki. Ustalili, czy słyszą prawdziwą kontynuację ludzkiego głosu, który został nagrany, czy sztuczny głos wyprodukowany przez AudioLM. Ich dane wskazują na 51.2% wskaźnik sukcesu. W rezultacie przeciętnemu słuchaczowi trudno będzie odróżnić mowę wytwarzaną przez AudioLM od rzeczywistej mowy ludzkiej.

Czy technologia zamiany tekstu na muzykę zmienia branżę muzyczną?

Generator tekstu na muzykę oparty na Interfejs API Muberta zostało niedawno ogłoszone przez inny model sztucznej inteligencji, Mubert. Mubert tworzy inny zestaw dźwięków dla każdego wysyłanego żądania. Prawdopodobieństwo powtórki jest naprawdę niewielkie. Muzyka powstaje na żądanie; nie jest pobierany z bazy danych gotowych utworów. Jak naprawdę generatywną tę muzykę to częste pytanie.

Czy technologia zamiany tekstu na muzykę zmienia branżę muzyczną?

Dźwięki są wybierane przed utworzeniem. Zarówno monit wejściowy, jak i znaczniki Mubert API są zakodowane w utajonym wektorze przestrzennym sieci neuronowej transformatora. Następnie wybierany jest najbliższy wektor znaczników dla każdego zapytania, a towarzyszące mu znaczniki są przesyłane do naszego interfejsu API w celu utworzenia muzyki. Do zbudowania żadnego z dźwięków nie użyto żadnej sieci neuronowej (oddzielne pętle dla basu, leadów itp.); wszystkie dźwięki zostały wyprodukowane przez muzyków i projektantów dźwięku.

Następnym znaczącym krokiem Muberta jest zabranie rzeczy z obecnego świata, takich jak zdjęcia, filmy, scenariusze i prezentacje, i stworzenie muzyki otaczającego cię świata.

Oto, co możesz uzyskać, lekkomyślnie wkładając podpowiedzi tekstowe w usta musicalu Mubert AI:

Jest to początkowy etap w procesie budowania bardziej wyrafinowanego i precyzyjnego algorytmu generującego, ale zajmie to trochę czasu i pieniędzy.

Jednak technologia zamiany tekstu na muzykę jest już dostępna, więc możesz generować albumy zbiorczo, wyłączając „monit wprowadzania” na „napisz losowy skrypt monitu”. Wygląda na to, że artyści nie są już potrzebni.

Przeczytaj więcej powiązanych wiadomości:

Odpowiedzialność

Zgodnie z Zaufaj wytycznym projektu, należy pamiętać, że informacje zawarte na tej stronie nie mają na celu i nie powinny być interpretowane jako porady prawne, podatkowe, inwestycyjne, finansowe lub jakiekolwiek inne formy porad. Ważne jest, aby inwestować tylko tyle, na utratę czego możesz sobie pozwolić, a w przypadku jakichkolwiek wątpliwości zasięgnąć niezależnej porady finansowej. Aby uzyskać więcej informacji, sugerujemy zapoznać się z warunkami oraz stronami pomocy i wsparcia udostępnianymi przez wydawcę lub reklamodawcę. MetaversePost zobowiązuje się do sporządzania dokładnych i bezstronnych raportów, jednakże warunki rynkowe mogą ulec zmianie bez powiadomienia.

O autorze

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Więcej artykułów
Damir Jałałow
Damir Jałałow

Damir jest liderem zespołu, menedżerem produktu i redaktorem w Metaverse Post, obejmujący takie tematy, jak AI/ML, AGI, LLM, Metaverse i Web3-pokrewne pola. Jego artykuły przyciągają każdego miesiąca ogromną publiczność, liczącą ponad milion użytkowników. Wydaje się być ekspertem z 10-letnim doświadczeniem w SEO i marketingu cyfrowym. Damir został wspomniany w Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i inne publikacje. Jako cyfrowy koczownik podróżuje między ZEA, Turcją, Rosją i WNP. Damir uzyskał tytuł licencjata z fizyki, co jego zdaniem dało mu umiejętności krytycznego myślenia potrzebne do odniesienia sukcesu w ciągle zmieniającym się środowisku internetowym. 

Apetyt instytucjonalny na ETFy Bitcoin rośnie w obliczu zmienności

Ujawnienia zawarte w zgłoszeniach 13F ujawniają, że znaczący inwestorzy instytucjonalni parają się funduszami ETF Bitcoin, co podkreśla rosnącą akceptację…

Dowiedz się więcej

Nadchodzi dzień wyroku: los CZ wisi na włosku, gdy amerykański sąd rozpatruje skargę Departamentu Sprawiedliwości

Changpeng Zhao stanie dziś przed amerykańskim sądem w Seattle wyrokiem skazującym.

Dowiedz się więcej
Dołącz do naszej innowacyjnej społeczności technologicznej
Czytaj więcej
Czytaj więcej
Injective łączy siły z AltLayer, aby zapewnić bezpieczeństwo ponownego stakowania w inEVM
Biznes Raport aktualności Technologia
Injective łączy siły z AltLayer, aby zapewnić bezpieczeństwo ponownego stakowania w inEVM
3 maja 2024 r.
Masa współpracuje z Tellerem, aby wprowadzić pulę pożyczek MASA, umożliwiającą zaciąganie pożyczek w USDC
rynki Raport aktualności Technologia
Masa współpracuje z Tellerem, aby wprowadzić pulę pożyczek MASA, umożliwiającą zaciąganie pożyczek w USDC
3 maja 2024 r.
Velodrome wprowadza wersję beta Superchain w nadchodzących tygodniach i rozszerza się na łańcuchy bloków warstwy 2 stosu OP
rynki Raport aktualności Technologia
Velodrome wprowadza wersję beta Superchain w nadchodzących tygodniach i rozszerza się na łańcuchy bloków warstwy 2 stosu OP
3 maja 2024 r.
CARV ogłasza partnerstwo z firmą Aethir w celu decentralizacji warstwy danych i dystrybucji nagród
Biznes Raport aktualności Technologia
CARV ogłasza partnerstwo z firmą Aethir w celu decentralizacji warstwy danych i dystrybucji nagród
3 maja 2024 r.
CRYPTOMERIA LABS PTE. SP. Z O.O.