SoundStorm: Google razkriva grozljivo orodje z umetno inteligenco, zmožno podvajanja glasu v realnem času
Na kratko
Google je predstavil SoundStorm, vrhunski model za učinkovito in neavtoregresivno generiranje zvoka.
Uporablja dvosmerno pozornost in vzporedno dekodiranje, ki temelji na zaupanju, za ustvarjanje visokokakovostnega zvoka, hkrati pa znatno skrajša čas generiranja.
Ima tudi sposobnost sintetiziranja naravnih dialogov.
Google je predstavil svoj najnovejši preboj v tehnologiji umetne inteligence z SoundStorm, vrhunski model za učinkovito in neavtoregresivno generiranje zvoka. S sposobnostjo, da sintetizirati dialoge z različnimi glasovi SoundStorm odpira nove možnosti za aplikacije, kot je ustvarjanje zvočne vsebine iz napisanega besedila in ustvarjanje realističnih podcastov.
Za razliko od predhodnika AudioLM, SoundStorm uporablja novo arhitekturo, ki ustvarja zvok v 30-sekundnih delih, kar povečuje učinkovitost. Z uporabo dvosmerne pozornosti in vzporednega dekodiranja, ki temelji na zaupanju, model proizvaja visokokakovosten zvok, medtem ko znatno skrajša čas generiranja. Na Googlovi strojni opremi TPU-v4 lahko SoundStorm ustvari 30 sekund zvoka v samo 0.5 sekunde, kar pomeni znatno izboljšanje hitrosti.
Usposabljanje SoundStorm je bilo izvedeno z uporabo ogromnega nabora podatkov 100,000 ur dialoga, kar je zagotovilo zanesljivo razumevanje vzorcev govorjenega jezika. Model dosega impresivno doslednost glasovnih in akustičnih pogojev, hkrati pa ohranja kakovost zvoka, ki jo dosega AudioLM. Zaradi tega preboja je SoundStorm za dva reda velikosti hitrejši od svojega predhodnika, kar dokazuje njegov potencial za razširljivo generiranje zvoka.
Ena od ključnih zmožnosti SoundStorma je njegova zmožnost sintetiziranja naravnih dialogov z izkoriščanjem stopnje besedilno-semantičnega modeliranja SPEAR-TTS. Z zagotavljanjem prepisov z obračanjem govorcev in kratkimi glasovnimi pozivi lahko uporabniki nadzorujejo izgovorjeno vsebino in glasove govorcev. Med testiranjem je SoundStorm pokazal zmožnost sintetiziranja 30-sekundnih segmentov dialoga v samo 2 sekundah na enem TPU-v4, s čimer je pokazal svojo učinkovitost in vsestranskost.
Glasovni poziv
Sintetizirani dialog
V primerjavi s standardnimi osnovnimi linijami je zvok, ki ga ustvari SoundStorm, enake kakovosti kot AudioLM ter izkazuje vrhunsko doslednost in akustično celovitost. Predvsem, ko je pozvan, da poda vzorec govora, model ohrani govorčev glas z neverjetno natančnostjo, kar močno poveča njegovo sposobnost ustvarjanja realističnega dialoga.
Čeprav so zmogljivosti SoundStorma izjemne, je ključnega pomena prepoznati in rešiti možno etični pomisleki. Podatki o usposabljanju za algoritem lahko povzročijo pristranskost v zvezi z naglasi in glasovnimi značilnostmi. Sposobnost posnemanja glasov bi lahko zlorabili za lažno predstavljanje ali za izogibanje biometrični identifikaciji. Google poudarja pomen uvedbe zaščite za preprečevanje tovrstnih zlorab in zagotavljanje zaznavnosti ustvarjenega zvoka prek namenskih klasifikatorjev.
Googlova etična načela umetne inteligence vodijo njegova nenehna prizadevanja za obravnavo morebitnih nevarnosti in omejitev. Organizacija se zaveda potrebe po temeljiti študiji podatkov o usposabljanju in posledic za rezultate modela. Prav tako nameravajo raziskati dodatne pristope, kot je zvočni vodni žig, za zaznavanje sintetiziranega govora za etično uporabo te tehnologije.
- SoundStorm je velik korak naprej v zvočni produkciji, ki jo poganja umetna inteligenca, saj zagotavlja visokokakovostne in učinkovite zvočne predstavitve, pridobljene z nevronskimi zvočnimi kodeki. Google pričakuje, da bodo zaradi manjšega pomnilnika in potreb po obdelavi SoundStorma raziskave o ustvarjanju zvoka postale dostopnejše širši skupnosti. Google ostaja predan ohranjanju odgovornih praks umetne inteligence ter zagotavljanju varne in odgovorne uporabe SoundStorma in primerljivih prebojev na tem področju z razvojem tehnologije.
- DOLINA, Microsoftov najnovejši model besedila v govor (TTS), je velik korak naprej pri izboljšanju tega, kako ti sistemi ustvarjajo glas. VALL-E je a TTS model temelji na transformatorjih, ki lahko ustvarijo govor v katerem koli glasu, potem ko slišijo le trisekundni vzorec tega glasu. To je velik napredek v primerjavi s prejšnjimi modeli, ki so zahtevali bistveno daljše obdobje usposabljanja za razvoj novega glasu.
Preberite več o AI:
Zavrnitev odgovornosti
V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.
O avtorju
Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.
več člankovDamir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta.