SoundStorm: Google predstavuje desivý nástroj AI, ktorý dokáže replikovať hlas v reálnom čase
Stručne
Google predstavil SoundStorm, špičkový model pre efektívne a neautoregresívne generovanie zvuku.
Využíva obojsmernú pozornosť a paralelné dekódovanie založené na spoľahlivosti na generovanie vysokokvalitného zvuku a zároveň výrazne skracuje čas generovania.
Má tiež schopnosť syntetizovať prirodzené dialógy.
Google predstavil svoj najnovší prelom v technológii umelej inteligencie s SoundStorm, špičkový model pre efektívne a neautoregresívne generovanie zvuku. So schopnosťou syntetizovať dialógy s rôznymi hlasmi otvára SoundStorm nové možnosti pre aplikácie, ako je generovanie zvukového obsahu z písaného textu a vytváranie realistických podcastov.
Na rozdiel od svojho predchodcu AudioLM, SoundStorm využíva novú architektúru, ktorá generuje zvuk v kúskoch 30 sekúnd, čím zvyšuje efektivitu. Využitím obojsmernej pozornosti a paralelného dekódovania založeného na spoľahlivosti model produkuje vysokokvalitný zvuk a zároveň výrazne skracuje čas generovania. Na hardvéri TPU-v4 od spoločnosti Google dokáže SoundStorm vygenerovať 30 sekúnd zvuku len za 0.5 sekundy, čo znamená podstatné zlepšenie rýchlosti.
Školenie spoločnosti SoundStorm sa uskutočnilo pomocou rozsiahleho súboru údajov 100,000 XNUMX hodín dialógu, čím sa zabezpečilo dôkladné pochopenie vzorcov hovorenej reči. Model dosahuje pôsobivú konzistenciu v hlasových a akustických podmienkach pri zachovaní kvality zvuku dosiahnutej AudioLM. Tento prelom robí SoundStorm o dva rády rýchlejším ako jeho predchodca, čo demonštruje jeho potenciál pre škálovateľné generovanie zvuku.
Jednou z kľúčových schopností SoundStorm je jeho schopnosť syntetizovať prirodzené dialógy využitím fázy modelovania textu na sémantiku SPEAR-TTS. Poskytnutím prepisov s odbočkami rečníka a krátkymi hlasovými výzvami môžu používatelia ovládať hovorený obsah a hlasy rečníkov. Počas testovania SoundStorm demonštroval schopnosť syntetizovať 30-sekundové dialógové segmenty len za 2 sekundy na jedinom TPU-v4, čím ukázal svoju efektivitu a všestrannosť.
Hlasový
Syntetizovaný dialóg
V porovnaní so štandardnými základnými líniami má zvuk generovaný SoundStorm rovnakú kvalitu ako AudioLM a vykazuje vynikajúcu konzistenciu a akustickú integritu. Predovšetkým, keď je model vyzvaný, aby poskytol vzorku reči, zachová hlas hovoriaceho s úžasnou presnosťou, čím výrazne zvýši jeho schopnosť vytvárať realistický dialóg.
Aj keď sú schopnosti SoundStorm vynikajúce, je dôležité rozpoznať a vyriešiť možné etické obavy. Tréningové dáta pre algoritmus môžu predstavovať odchýlky týkajúce sa prízvukov a hlasových vlastností. Schopnosť napodobňovať hlasy by mohla byť zneužitá stelesnenie alebo na obchádzanie biometrickej identifikácie. Google zdôrazňuje význam zavedenia ochrany, aby sa zabránilo takémuto zneužitiu a zabezpečenie zistiteľnosti vytvoreného zvuku prostredníctvom vyhradených klasifikátorov.
Etické princípy AI spoločnosti Google poháňajú jej pokračujúce úsilie o riešenie potenciálnych nebezpečenstiev a obmedzení. Organizácia si uvedomuje potrebu vykonať dôkladnú štúdiu tréningových dát a dôsledkov pre výstupy modelu. Plánujú tiež preskúmať ďalšie prístupy, ako je audio vodoznak, na detekciu syntetizovanej reči s cieľom eticky využiť túto technológiu.
- SoundStorm je veľkým krokom vpred v produkcii zvuku poháňaného AI a poskytuje vysokokvalitné a efektívne zvukové reprezentácie odvodené od neurónového zvukového kodeku. Google očakáva, že nižšie nároky na pamäť a spracovanie zvuku SoundStorm sprístupnia výskum generovania zvuku širšej komunite. Google sa aj naďalej venuje zachovávaniu zodpovedných postupov umelej inteligencie a zaisteniu bezpečného a zodpovedného používania SoundStorm a porovnateľných objavov v tejto oblasti s vývojom technológie.
- VALLEY, najnovší model prevodu textu na reč (TTS) od spoločnosti Microsoft, je obrovským krokom vpred pri zlepšovaní spôsobu, akým tieto systémy generujú hlas. VALL-E je a Model TTS založené na transformátoroch, ktoré dokážu generovať reč v akomkoľvek hlase po vypočutí iba trojsekundovej vzorky tohto hlasu. Ide o veľký pokrok oproti predchádzajúcim modelom, ktoré si vyžadovali výrazne dlhšie tréningové obdobie na vývoj nového hlasu.
Prečítajte si viac o AI:
Vylúčenie zodpovednosti
V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.
O autorovi
Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.
Ďalšie článkyDamir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.