Tudósítást
Október 21, 2022

A Google AI bejelentette az első szöveg-zene generátor audioLM-t

Röviden

Az AudioLM csak hangok hallgatásával képes zenét előállítani

Mubert AI folytatja az emberi beszédet és a zongoramuzsikát

A GPT-3 és mások, a generatív AI ötlete jó eséllyel halad előre. Felfedeztük az inpainting és outpainting fogalmát is; Az AI ügyesen kiegészíti a képeket, miközben megtartja a témát és a stílust. Mi a helyzet a zenével?

És még egyszer! Mivel mindez olyan AI nyelvi modelleken alapul, amelyek megtartják a jelentést, csak idő kérdése volt, hogy ezt a technológiát mikor alkalmazzák a zenében. És most eljött az idő.

A Google mesterséges intelligencia bejelentette az első szöveg-zene generátort, az AudioLM-et

A Google legújabb kutatásai szerint az AudioLM nevű új hanggyártási keretrendszer megtanítható valósághű beszéd- és zongoramuzsika létrehozására pusztán hangok meghallgatásával. Hosszú távú konzisztenciájának és kiváló hűségének köszönhetően az AudioLM felülmúlja a korábbi rendszereket, és a hangszintézis és a számítógéppel segített zene alkalmazásaival továbbfejleszti a hangalkotást.

Kifejlesztettünk egy rendszert az AudioLM által előállított szintetikus hangok felismerésére, ugyanazokat az AI-koncepciókat alkalmazva, amelyek a korábbi modelljeink létrehozását is alátámasztották.

AudioLM a Google mesterséges intelligencia kiterjesztheti az akusztikus átjárót, miközben megtartja a „szándékot”. Mostanra az emberi beszéd és a zongorazene folytatására lett kiképezve, korlátozott bemeneti adatminta alapján. Ellenőrizze az alábbi mintát.

A beszéd kritériumai egyértelműek voltak: a hallgatókat megkérték, hogy értékeljék, emberi beszédnek hangzik-e a folytatás. A zenével kiderült, hogy a bemenetre szállított rész „folytatása” minőségében jóval jobb, mint az összes jelenlegi zenegenerátor a semmiből, mint pl. JukeBox. A bemeneti javaslattal az AI lényegesen jobban folytatja a zenét.

A Google mesterséges intelligencia bejelentette az első szöveg-zene generátort, az AudioLM-et

Az emberi értékelők hangmintákat hallgattak meg, hogy megerősítsék az eredményeket. Megállapították, hogy egy felvett emberi hang valódi folytatását vagy az AudioLM által előállított mesterséges hangot hallják. Adataik 51.2%-os sikerarányt jeleznek. Ennek eredményeként az átlagos hallgató számára nehéz lesz különbséget tenni az AudioLM által előállított beszéd és a tényleges emberi beszéd között.

Megváltoztatja-e a szöveg-zene technológia a zenei üzletágat?

A szöveg-zene generátor a Mubert API nemrég jelentette be egy másik AI-modell, Mubert. Mubert minden elküldött kéréshez különböző hangkészletet hoz létre. Az ismétlés valószínűsége nagyon kicsi. A zene akkor jön létre, amikor egy kérés érkezik; nem a kész dallamok adatbázisából húzza ki. Milyen igazán generatív ez a zene ez gyakori kérdés.

Megváltoztatja-e a szöveg-zene technológia a zenei üzletágat?

A hangok kiválasztása a létrehozás előtt történik. A bemeneti prompt és a Mubert API címkék is egy transzformátor neurális hálózat látens térvektorába vannak kódolva. Ezután minden lekérdezéshez kiválasztják a legközelebbi címkevektort, és a kapcsolódó címkéket továbbítják az API-hoz, hogy zenét hozzanak létre. Nem használtak neurális hálózatot a hangok felépítéséhez (külön hurok a basszushoz, levezetésekhez stb.); az összes hangot zenészek és hangtervezők készítették.

Mubert következő jelentős lépése az, hogy átveszi a jelen világból származó tárgyakat, például fényképeket, filmeket, forgatókönyveket és prezentációkat, és megalkotja az Önt körülvevő világ zenéjét.

Íme, mit kaphat, ha meggondolatlanul szöveges felszólításokat ad a Mubert AI című musical szájába:

Ez a kezdeti szakasz egy kifinomultabb és precízebb generáló algoritmus felépítésének folyamatában, de ez időt és pénzt igényel.

A szöveg-zene technológia azonban már rendelkezésre áll, így tömegesen generálhat albumokat, ha kikapcsolja a „bemeneti prompt” lehetőséget a „véletlenszerű prompt szkript írása” helyett. Úgy tűnik, már nincs szükség művészekre.

Olvasson további kapcsolódó híreket:

A felelősség megtagadása

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

További cikkek
Damir Jalalov
Damir Jalalov

Damir a csapat vezetője, termékmenedzsere és szerkesztője Metaverse Post, olyan témákkal foglalkozik, mint az AI/ML, AGI, LLMs, Metaverse és Web3- kapcsolódó mezők. Cikkei havonta több mint egymillió felhasználót vonzanak. Úgy tűnik, szakértő, aki 10 éves tapasztalattal rendelkezik a SEO és a digitális marketing területén. Damirt a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto és más kiadványok. Digitális nomádként utazik az Egyesült Arab Emírségek, Törökország, Oroszország és a FÁK között. Damir fizikából szerzett bachelor-diplomát, és úgy gondolja, hogy ez megadta neki azokat a kritikus gondolkodási készségeket, amelyek szükségesek ahhoz, hogy sikeres legyen az internet folyamatosan változó táján. 

A volatilitás közepette nő az intézményi étvágy a Bitcoin ETF-ek felé

A 13F bejelentéseken keresztül közzétett információk jelentős intézményi befektetőket tárnak fel a Bitcoin ETF-ek iránt, ami alátámasztja a ...

Tudjon meg többet

Elérkezett az ítélethirdetés napja: CZ sorsa egyensúlyban van, mivel az Egyesült Államok bírósága mérlegeli a DOJ kérelmét

Changpeng Zhao ítéletet vár ma egy seattle-i amerikai bíróságon.

Tudjon meg többet
Csatlakozzon innovatív technológiai közösségünkhöz
KATT ide
Tovább
Az Injective egyesíti erőit az AltLayerrel, hogy biztonságot nyújtson az inEVM számára
üzleti Tudósítást Technológia
Az Injective egyesíti erőit az AltLayerrel, hogy biztonságot nyújtson az inEVM számára
May 3, 2024
A Masa a Tellerrel együttműködve bevezeti a MASA hitelintézetet, amely lehetővé teszi az USDC hitelfelvételt.
piacok Tudósítást Technológia
A Masa a Tellerrel együttműködve bevezeti a MASA hitelintézetet, amely lehetővé teszi az USDC hitelfelvételt.
May 3, 2024
A Velodrome a következő hetekben elindítja a Superchain béta verzióját, és az OP Stack Layer 2 blokkláncaira is kiterjed
piacok Tudósítást Technológia
A Velodrome a következő hetekben elindítja a Superchain béta verzióját, és az OP Stack Layer 2 blokkláncaira is kiterjed
May 3, 2024
A CARV partnerséget hirdet az Aethirrel adatrétegének decentralizálása és a jutalmak elosztása érdekében
üzleti Tudósítást Technológia
A CARV partnerséget hirdet az Aethirrel adatrétegének decentralizálása és a jutalmak elosztása érdekében
May 3, 2024
CRYPTOMERIA LABS PTE. KFT.