Novinová správa SMW Technológia
Môže 30, 2023

SoundStorm: Google predstavuje desivý nástroj AI, ktorý dokáže replikovať hlas v reálnom čase

Stručne

Google predstavil SoundStorm, špičkový model pre efektívne a neautoregresívne generovanie zvuku.

Využíva obojsmernú pozornosť a paralelné dekódovanie založené na spoľahlivosti na generovanie vysokokvalitného zvuku a zároveň výrazne skracuje čas generovania.

Má tiež schopnosť syntetizovať prirodzené dialógy.

Google predstavil svoj najnovší prelom v technológii umelej inteligencie s SoundStorm, špičkový model pre efektívne a neautoregresívne generovanie zvuku. So schopnosťou syntetizovať dialógy s rôznymi hlasmi otvára SoundStorm nové možnosti pre aplikácie, ako je generovanie zvukového obsahu z písaného textu a vytváranie realistických podcastov.

SoundStorm: Google predstavuje desivý nástroj AI, ktorý dokáže replikovať hlas v reálnom čase
@Midjourney

Na rozdiel od svojho predchodcu AudioLM, SoundStorm využíva novú architektúru, ktorá generuje zvuk v kúskoch 30 sekúnd, čím zvyšuje efektivitu. Využitím obojsmernej pozornosti a paralelného dekódovania založeného na spoľahlivosti model produkuje vysokokvalitný zvuk a zároveň výrazne skracuje čas generovania. Na hardvéri TPU-v4 od spoločnosti Google dokáže SoundStorm vygenerovať 30 sekúnd zvuku len za 0.5 sekundy, čo znamená podstatné zlepšenie rýchlosti.

Školenie spoločnosti SoundStorm sa uskutočnilo pomocou rozsiahleho súboru údajov 100,000 XNUMX hodín dialógu, čím sa zabezpečilo dôkladné pochopenie vzorcov hovorenej reči. Model dosahuje pôsobivú konzistenciu v hlasových a akustických podmienkach pri zachovaní kvality zvuku dosiahnutej AudioLM. Tento prelom robí SoundStorm o dva rády rýchlejším ako jeho predchodca, čo demonštruje jeho potenciál pre škálovateľné generovanie zvuku.

Jednou z kľúčových schopností SoundStorm je jeho schopnosť syntetizovať prirodzené dialógy využitím fázy modelovania textu na sémantiku SPEAR-TTS. Poskytnutím prepisov s odbočkami rečníka a krátkymi hlasovými výzvami môžu používatelia ovládať hovorený obsah a hlasy rečníkov. Počas testovania SoundStorm demonštroval schopnosť syntetizovať 30-sekundové dialógové segmenty len za 2 sekundy na jedinom TPU-v4, čím ukázal svoju efektivitu a všestrannosť.

Hlasový

Syntetizovaný dialóg

V porovnaní so štandardnými základnými líniami má zvuk generovaný SoundStorm rovnakú kvalitu ako AudioLM a vykazuje vynikajúcu konzistenciu a akustickú integritu. Predovšetkým, keď je model vyzvaný, aby poskytol vzorku reči, zachová hlas hovoriaceho s úžasnou presnosťou, čím výrazne zvýši jeho schopnosť vytvárať realistický dialóg.

Aj keď sú schopnosti SoundStorm vynikajúce, je dôležité rozpoznať a vyriešiť možné etické obavy. Tréningové dáta pre algoritmus môžu predstavovať odchýlky týkajúce sa prízvukov a hlasových vlastností. Schopnosť napodobňovať hlasy by mohla byť zneužitá stelesnenie alebo na obchádzanie biometrickej identifikácie. Google zdôrazňuje význam zavedenia ochrany, aby sa zabránilo takémuto zneužitiu a zabezpečenie zistiteľnosti vytvoreného zvuku prostredníctvom vyhradených klasifikátorov.

Etické princípy AI spoločnosti Google poháňajú jej pokračujúce úsilie o riešenie potenciálnych nebezpečenstiev a obmedzení. Organizácia si uvedomuje potrebu vykonať dôkladnú štúdiu tréningových dát a dôsledkov pre výstupy modelu. Plánujú tiež preskúmať ďalšie prístupy, ako je audio vodoznak, na detekciu syntetizovanej reči s cieľom eticky využiť túto technológiu.

  • SoundStorm je veľkým krokom vpred v produkcii zvuku poháňaného AI a poskytuje vysokokvalitné a efektívne zvukové reprezentácie odvodené od neurónového zvukového kodeku. Google očakáva, že nižšie nároky na pamäť a spracovanie zvuku SoundStorm sprístupnia výskum generovania zvuku širšej komunite. Google sa aj naďalej venuje zachovávaniu zodpovedných postupov umelej inteligencie a zaisteniu bezpečného a zodpovedného používania SoundStorm a porovnateľných objavov v tejto oblasti s vývojom technológie.
  • VALLEY, najnovší model prevodu textu na reč (TTS) od spoločnosti Microsoft, je obrovským krokom vpred pri zlepšovaní spôsobu, akým tieto systémy generujú hlas. VALL-E je a Model TTS založené na transformátoroch, ktoré dokážu generovať reč v akomkoľvek hlase po vypočutí iba trojsekundovej vzorky tohto hlasu. Ide o veľký pokrok oproti predchádzajúcim modelom, ktoré si vyžadovali výrazne dlhšie tréningové obdobie na vývoj nového hlasu.

Prečítajte si viac o AI:

Vylúčenie zodpovednosti

V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.

O autorovi

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Ďalšie články
Damir Yalalov
Damir Yalalov

Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu. 

Prichádza deň odsúdenia: Osud CZ visí v rovnováhe, pretože americký súd zvažuje žalobu ministerstva spravodlivosti

Changpeng Zhao dnes čaká na americkom súde v Seattli odsúdenie.

vedieť viac

Zakladatelia Peňaženky Samourai boli obvinení z uľahčenia obchodov Darknet v hodnote 2 miliárd USD

Obavy zakladateľov Peňaženky Samourai predstavujú pre odvetvie pozoruhodnú prekážku, ktorá podčiarkuje pretrvávajúcu ...

vedieť viac
Pripojte sa k našej komunite inovatívnych technológií
Čítaj viac
Čítaj viac
Pantera Capital investuje do blockchainu TON, vyjadruje dôveru v potenciál Telegramu na rozšírenie dostupnosti kryptomien
firmy Novinová správa Technológia
Pantera Capital investuje do blockchainu TON, vyjadruje dôveru v potenciál Telegramu na rozšírenie dostupnosti kryptomien
Môže 2, 2024
Mitosis získa 7 miliónov dolárov vo financovaní od Amber Group a Foresight Ventures na zlepšenie svojho modulárneho protokolu likvidity
firmy Novinová správa Technológia
Mitosis získa 7 miliónov dolárov vo financovaní od Amber Group a Foresight Ventures na zlepšenie svojho modulárneho protokolu likvidity
Môže 2, 2024
Galxe spolupracuje so spoločnosťou Jambo, aby rozšírila globálnu dostupnosť Web3
firmy Novinová správa Technológia
Galxe spolupracuje so spoločnosťou Jambo, aby rozšírila globálnu dostupnosť Web3
Môže 2, 2024
Med-Gemini od Googlu je pripravený dať náskok GPT-4 S vynikajúcim výkonom v zdravotníctve
AI Wiki Novinky Softvér Technológia
Med-Gemini od Googlu je pripravený dať náskok GPT-4 S vynikajúcim výkonom v zdravotníctve
Môže 2, 2024
CRYPTOMERIA LABS PTE. LTD.