Vijesti SMW Tehnologija
Neka 30, 2023

SoundStorm: Google predstavlja zastrašujući AI alat sposoban za replikaciju glasa u stvarnom vremenu

Ukratko

Google je predstavio SoundStorm, vrhunski model za učinkovito i neautoregresivno generiranje zvuka.

Koristi dvosmjernu pozornost i paralelno dekodiranje temeljeno na pouzdanosti za generiranje visokokvalitetnog zvuka uz značajno smanjenje vremena generiranja.

Također ima sposobnost sintetiziranja prirodnih dijaloga.

Google je predstavio svoje najnovije otkriće u tehnologiji umjetne inteligencije sa SoundStorm, vrhunski model za učinkovito i neautoregresivno generiranje zvuka. Uz mogućnost da sintetizirati dijaloge s različitim glasovima, SoundStorm otvara nove mogućnosti za aplikacije kao što su generiranje audio sadržaja iz pisanog teksta i stvaranje realističnih podcasta.

SoundStorm: Google predstavlja zastrašujući AI alat sposoban za replikaciju glasa u stvarnom vremenu
@Midjourney

Za razliku od svog prethodnika AudioLM, SoundStorm koristi novu arhitekturu koja generira zvuk u dijelovima od 30 sekundi, povećavajući učinkovitost. Korištenjem dvosmjerne pozornosti i paralelnog dekodiranja temeljenog na pouzdanosti, model proizvodi visokokvalitetni zvuk uz značajno smanjenje vremena generiranja. Na Googleovom TPU-v4 hardveru, SoundStorm može generirati 30 sekundi zvuka u samo 0.5 sekundi, označavajući značajno poboljšanje brzine.

SoundStormova obuka provedena je korištenjem ogromnog skupa podataka od 100,000 sati dijaloga, osiguravajući robusno razumijevanje obrazaca govornog jezika. Model postiže impresivnu konzistentnost u glasovnim i akustičnim uvjetima dok zadržava audio kvalitetu koju postiže AudioLM. Ovo otkriće čini SoundStorm dva reda veličine bržim od svog prethodnika, pokazujući njegov potencijal za skalabilno generiranje zvuka.

Jedna od ključnih mogućnosti SoundStorma je njegova sposobnost sintetiziranja prirodnih dijaloga korištenjem faze modeliranja teksta u semantiku SPEAR-TTS-a. Omogućavanjem prijepisa sa skretanjem govornika i kratkim glasovnim uputama, korisnici mogu kontrolirati izgovoreni sadržaj i glasove govornika. Tijekom testiranja, SoundStorm je pokazao sposobnost sintetiziranja segmenata dijaloga od 30 sekundi u samo 2 sekunde na jednom TPU-v4, pokazujući njegovu učinkovitost i svestranost.

Glasovno upozorenje

Sintetizirani dijalog

U usporedbi sa standardnim osnovnim linijama, zvuk koji generira SoundStorm je ekvivalentne kvalitete kao AudioLM i pokazuje vrhunsku dosljednost i akustični integritet. Naime, kada se od njega zatraži da da uzorak govora, model čuva govornikov glas s nevjerojatnom preciznošću, uvelike povećavajući njegovu sposobnost generiranja realističnog dijaloga.

Dok su mogućnosti SoundStorma izvanredne, kritično je prepoznati i riješiti moguće etička zabrinutost. Podaci o obuci za algoritam mogu uvesti pristranosti u vezi s naglascima i značajkama glasa. Sposobnost oponašanja glasova mogla bi se zloupotrijebiti za lažno predstavljanje ili zaobići biometrijsku identifikaciju. Google naglašava važnost postavljanja zaštite za sprječavanje takve zlouporabe i osiguravajući detektibilnost stvorenog zvuka putem namjenskih klasifikatora.

Googleova etička načela umjetne inteligencije pokreću njegove stalne napore u rješavanju potencijalnih opasnosti i ograničenja. Organizacija shvaća potrebu za provedbom temeljite studije podataka o obuci i implikacija na rezultate modela. Također planiraju istražiti dodatne pristupe, kao što je audio vodeni žig, za otkrivanje sintetiziranog govora kako bi etički koristili ovu tehnologiju.

  • SoundStorm je veliki korak naprijed u audio produkciji pokretanoj umjetnom inteligencijom, pružajući visokokvalitetne i učinkovite audio reprezentacije izvedene iz neuronskih audio kodeka. Google očekuje da će SoundStormove manje potrebe za memorijom i obradom učiniti istraživanje audio generacije dostupnijim široj zajednici. Google ostaje posvećen očuvanju odgovornih praksi AI i osiguravanju sigurne i odgovorne upotrebe SoundStorma i usporedivih otkrića u tom području kako se tehnologija razvija.
  • DOLINA, najnoviji Microsoftov model pretvaranja teksta u govor (TTS), veliki je korak naprijed u poboljšanju načina na koji ti sustavi generiraju glas. VALL-E je a TTS model temelji se na transformatorima koji mogu generirati govor u bilo kojem glasu nakon samo slušanja uzorka od tri sekunde tog glasa. Ovo je veliki napredak u odnosu na ranije modele, koji su zahtijevali znatno dulje razdoblje obuke za razvoj novog glasa.

Pročitajte više o AI:

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Više članaka
Damir Yalalov
Damir Yalalov

Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta. 

Stiže dan izricanja presude: CZ-ova sudbina visi na ravnoteži dok američki sud razmatra izjavu DOJ-a

Changpeng Zhao danas će se suočiti s kaznom na američkom sudu u Seattleu.

Znati više

Osnivači novčanika Samourai optuženi za omogućavanje 2 milijarde dolara u poslovima Darkneta

Uhićenje osnivača Samourai Walleta predstavlja značajno nazadovanje u industriji, naglašavajući upornu ...

Znati više
Pridružite se našoj zajednici inovativnih tehnologija
opširnije
Čitaj više
Pantera Capital ulaže u TON Blockchain, izražava povjerenje u potencijal Telegrama da proširi kripto pristupačnost
posao Vijesti Tehnologija
Pantera Capital ulaže u TON Blockchain, izražava povjerenje u potencijal Telegrama da proširi kripto pristupačnost
Neka 2, 2024
Mitosis prikuplja 7 milijuna dolara financiranja od Amber Group i Foresight Ventures kako bi unaprijedio svoj modularni protokol likvidnosti
posao Vijesti Tehnologija
Mitosis prikuplja 7 milijuna dolara financiranja od Amber Group i Foresight Ventures kako bi unaprijedio svoj modularni protokol likvidnosti
Neka 2, 2024
Galxe surađuje s Jambom kako bi proširio globalnu dostupnost na Web3
posao Vijesti Tehnologija
Galxe surađuje s Jambom kako bi proširio globalnu dostupnost na Web3
Neka 2, 2024
Googleov Med-Gemini spreman dati prednost GPT-4 Sa svojom vrhunskom izvedbom u zdravstvu
AI Wiki Vijesti iz kluba softver Tehnologija
Googleov Med-Gemini spreman dati prednost GPT-4 Sa svojom vrhunskom izvedbom u zdravstvu
Neka 2, 2024
CRYPTOMERIA LABS PTE. LTD.