Novice SMW Tehnologija
Maj 30, 2023

SoundStorm: Google razkriva grozljivo orodje z umetno inteligenco, zmožno podvajanja glasu v realnem času

Na kratko

Google je predstavil SoundStorm, vrhunski model za učinkovito in neavtoregresivno generiranje zvoka.

Uporablja dvosmerno pozornost in vzporedno dekodiranje, ki temelji na zaupanju, za ustvarjanje visokokakovostnega zvoka, hkrati pa znatno skrajša čas generiranja.

Ima tudi sposobnost sintetiziranja naravnih dialogov.

Google je predstavil svoj najnovejši preboj v tehnologiji umetne inteligence z SoundStorm, vrhunski model za učinkovito in neavtoregresivno generiranje zvoka. S sposobnostjo, da sintetizirati dialoge z različnimi glasovi SoundStorm odpira nove možnosti za aplikacije, kot je ustvarjanje zvočne vsebine iz napisanega besedila in ustvarjanje realističnih podcastov.

SoundStorm: Google razkriva grozljivo orodje z umetno inteligenco, zmožno podvajanja glasu v realnem času
@Midjourney

Za razliko od predhodnika AudioLM, SoundStorm uporablja novo arhitekturo, ki ustvarja zvok v 30-sekundnih delih, kar povečuje učinkovitost. Z uporabo dvosmerne pozornosti in vzporednega dekodiranja, ki temelji na zaupanju, model proizvaja visokokakovosten zvok, medtem ko znatno skrajša čas generiranja. Na Googlovi strojni opremi TPU-v4 lahko SoundStorm ustvari 30 sekund zvoka v samo 0.5 sekunde, kar pomeni znatno izboljšanje hitrosti.

Usposabljanje SoundStorm je bilo izvedeno z uporabo ogromnega nabora podatkov 100,000 ur dialoga, kar je zagotovilo zanesljivo razumevanje vzorcev govorjenega jezika. Model dosega impresivno doslednost glasovnih in akustičnih pogojev, hkrati pa ohranja kakovost zvoka, ki jo dosega AudioLM. Zaradi tega preboja je SoundStorm za dva reda velikosti hitrejši od svojega predhodnika, kar dokazuje njegov potencial za razširljivo generiranje zvoka.

Ena od ključnih zmožnosti SoundStorma je njegova zmožnost sintetiziranja naravnih dialogov z izkoriščanjem stopnje besedilno-semantičnega modeliranja SPEAR-TTS. Z zagotavljanjem prepisov z obračanjem govorcev in kratkimi glasovnimi pozivi lahko uporabniki nadzorujejo izgovorjeno vsebino in glasove govorcev. Med testiranjem je SoundStorm pokazal zmožnost sintetiziranja 30-sekundnih segmentov dialoga v samo 2 sekundah na enem TPU-v4, s čimer je pokazal svojo učinkovitost in vsestranskost.

Glasovni poziv

Sintetizirani dialog

V primerjavi s standardnimi osnovnimi linijami je zvok, ki ga ustvari SoundStorm, enake kakovosti kot AudioLM ter izkazuje vrhunsko doslednost in akustično celovitost. Predvsem, ko je pozvan, da poda vzorec govora, model ohrani govorčev glas z neverjetno natančnostjo, kar močno poveča njegovo sposobnost ustvarjanja realističnega dialoga.

Čeprav so zmogljivosti SoundStorma izjemne, je ključnega pomena prepoznati in rešiti možno etični pomisleki. Podatki o usposabljanju za algoritem lahko povzročijo pristranskost v zvezi z naglasi in glasovnimi značilnostmi. Sposobnost posnemanja glasov bi lahko zlorabili za lažno predstavljanje ali za izogibanje biometrični identifikaciji. Google poudarja pomen uvedbe zaščite za preprečevanje tovrstnih zlorab in zagotavljanje zaznavnosti ustvarjenega zvoka prek namenskih klasifikatorjev.

Googlova etična načela umetne inteligence vodijo njegova nenehna prizadevanja za obravnavo morebitnih nevarnosti in omejitev. Organizacija se zaveda potrebe po temeljiti študiji podatkov o usposabljanju in posledic za rezultate modela. Prav tako nameravajo raziskati dodatne pristope, kot je zvočni vodni žig, za zaznavanje sintetiziranega govora za etično uporabo te tehnologije.

  • SoundStorm je velik korak naprej v zvočni produkciji, ki jo poganja umetna inteligenca, saj zagotavlja visokokakovostne in učinkovite zvočne predstavitve, pridobljene z nevronskimi zvočnimi kodeki. Google pričakuje, da bodo zaradi manjšega pomnilnika in potreb po obdelavi SoundStorma raziskave o ustvarjanju zvoka postale dostopnejše širši skupnosti. Google ostaja predan ohranjanju odgovornih praks umetne inteligence ter zagotavljanju varne in odgovorne uporabe SoundStorma in primerljivih prebojev na tem področju z razvojem tehnologije.
  • DOLINA, Microsoftov najnovejši model besedila v govor (TTS), je velik korak naprej pri izboljšanju tega, kako ti sistemi ustvarjajo glas. VALL-E je a TTS model temelji na transformatorjih, ki lahko ustvarijo govor v katerem koli glasu, potem ko slišijo le trisekundni vzorec tega glasu. To je velik napredek v primerjavi s prejšnjimi modeli, ki so zahtevali bistveno daljše obdobje usposabljanja za razvoj novega glasu.

Preberite več o AI:

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

več člankov
Damir Yalalov
Damir Yalalov

Damir je vodja ekipe, produktni vodja in urednik pri Metaverse Post, ki pokriva teme, kot so AI/ML, AGI, LLMs, Metaverse in Web3- sorodna področja. Njegovi članki vsak mesec pritegnejo množično občinstvo več kot milijon uporabnikov. Zdi se, da je strokovnjak z 10-letnimi izkušnjami na področju SEO in digitalnega trženja. Damir je bil omenjen v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto in druge publikacije. Kot digitalni nomad potuje med ZAE, Turčijo, Rusijo in SND. Damir je diplomiral iz fizike, kar mu je po njegovem mnenju dalo sposobnosti kritičnega razmišljanja, potrebne za uspeh v nenehno spreminjajočem se okolju interneta. 

Prihaja dan obsodbe: usoda CZ visi na ravnovesju, ko ameriško sodišče obravnava tožbeni razlog DOJ

Changpeng Zhao se danes sooča z obsodbo na ameriškem sodišču v Seattlu.

Več o tem

Ustanovitelji denarnice Samourai Wallet obtoženi omogočanja 2 milijard dolarjev pri poslih Darknet

Zaskrbljenost ustanoviteljev denarnice Samourai Wallet predstavlja opazno nazadovanje za industrijo, ki poudarja vztrajno ...

Več o tem
Pridružite se naši inovativni tehnološki skupnosti
Preberi več
Preberi več
Pantera Capital vlaga v TON Blockchain in izraža zaupanje v potencial Telegrama za razširitev kripto dostopnosti
ŽELITE POSTATI PARTNER Novice Tehnologija
Pantera Capital vlaga v TON Blockchain in izraža zaupanje v potencial Telegrama za razširitev kripto dostopnosti
Maj 2, 2024
Mitosis zbere 7 milijonov dolarjev sredstev od Amber Group in Foresight Ventures za napredek modularnega protokola likvidnosti
ŽELITE POSTATI PARTNER Novice Tehnologija
Mitosis zbere 7 milijonov dolarjev sredstev od Amber Group in Foresight Ventures za napredek modularnega protokola likvidnosti
Maj 2, 2024
Galxe sodeluje z Jambo za razširitev globalne dostopnosti na Web3
ŽELITE POSTATI PARTNER Novice Tehnologija
Galxe sodeluje z Jambo za razširitev globalne dostopnosti na Web3
Maj 2, 2024
Googlov Med-Gemini pripravljen dati prednost GPT-4 S svojim vrhunskim delovanjem v zdravstvu
AI Wiki Novice Software Tehnologija
Googlov Med-Gemini pripravljen dati prednost GPT-4 S svojim vrhunskim delovanjem v zdravstvu
Maj 2, 2024
CRYPTOMERIA LABS PTE. LTD.