Pot 30, 2023

SoundStorm: Google presenta una terrible eina d'IA capaç de replicar la veu en temps real

by Damir Yalalov

Publicat: 30 de maig de 2023 a les 10:00 Actualitzat: 30 de maig de 2023 a les 7:26

by Karolina Gaszcz

Editat i verificat: 30 de maig de 2023 a les 10:00

En breu

Google ha presentat SoundStorm, un model d'avantguarda per a la generació d'àudio eficient i no autoregressiva.

Utilitza atenció bidireccional i descodificació paral·lela basada en la confiança per generar àudio d'alta qualitat alhora que redueix significativament el temps de generació.

També té la capacitat de sintetitzar diàlegs naturals.

Google ha presentat el seu darrer avenç en tecnologia d'intel·ligència artificial amb Tempesta de so, un model d'avantguarda per a la generació d'àudio eficient i no autoregressiva. Amb la capacitat de sintetitzar diàlegs amb diferents veus, SoundStorm obre noves possibilitats per a aplicacions com ara generar contingut d'àudio a partir de text escrit i crear podcasts realistes.

SoundStorm: Google presenta una terrible eina d'IA capaç de replicar la veu en temps real — @Midjourney

A diferència del seu predecessor AudioLM, SoundStorm utilitza una arquitectura nova que genera àudio en fragments de 30 segons, millorant l'eficiència. Mitjançant l'atenció bidireccional i la descodificació paral·lela basada en la confiança, el model produeix àudio d'alta qualitat alhora que redueix significativament el temps de generació. Al maquinari TPU-v4 de Google, SoundStorm pot generar 30 segons d'àudio en només 0.5 segons, cosa que suposa una millora substancial de la velocitat.

La formació de SoundStorm es va dur a terme mitjançant un conjunt de dades massiu de 100,000 hores de diàleg, garantint una comprensió sòlida dels patrons del llenguatge parlat. El model aconsegueix una coherència impressionant en les condicions de veu i acústiques alhora que manté la qualitat d'àudio aconseguida per AudioLM. Aquest avenç fa que SoundStorm sigui dos ordres de magnitud més ràpid que el seu predecessor, demostrant el seu potencial per a la generació d'àudio escalable.

Una de les capacitats clau de SoundStorm és la seva capacitat per sintetitzar diàlegs naturals aprofitant l'etapa de modelatge de text a semàntic de SPEAR-TTS. En proporcionar transcripcions amb torns d'altaveu i indicacions de veu breus, els usuaris poden controlar el contingut parlat i les veus dels parlants. Durant les proves, SoundStorm va demostrar la capacitat de sintetitzar segments de diàleg de 30 segons en només 2 segons en un sol TPU-v4, mostrant la seva eficiència i versatilitat.

Missatge de veu

Diàleg sintetitzat

En comparació amb les línies de base estàndard, l'àudio generat per SoundStorm és de qualitat equivalent a AudioLM i demostra una consistència i integritat acústica superiors. En particular, quan se li demana que doni una mostra de parla, el model conserva la veu de l'orador amb una precisió sorprenent, augmentant considerablement la seva capacitat per generar diàlegs realistes.

Tot i que les capacitats de SoundStorm són excepcionals, és fonamental reconèixer i resoldre possibles preocupacions ètiques. Les dades d'entrenament per a l'algorisme poden introduir biaixos relacionats amb els accents i les funcions de veu. Es podria abusar de la capacitat d'imitar veus suplantació d'identitat o per eludir la identificació biomètrica. Google subratlla la importància d'establir proteccions per evitar aquest tipus d'abús i assegurant la detectabilitat d'àudio creat mitjançant classificadors dedicats.

Els principis ètics d'IA de Google impulsen els seus esforços continuats per abordar els perills i limitacions potencials. L'organització s'adona de la necessitat de fer un estudi exhaustiu de les dades de formació i les implicacions per als resultats del model. També tenen previst investigar enfocaments addicionals, com ara la marca d'aigua d'àudio, per detectar la parla sintetitzada per fer un ús ètic d'aquesta tecnologia.

SoundStorm és un gran pas endavant en la producció d'àudio impulsada per IA, proporcionant representacions d'àudio derivades de còdecs d'àudio neuronals d'alta qualitat i eficients. Google espera que les necessitats de processament i memòria més baixes de SoundStorm faran que la recerca de generació d'àudio sigui més accessible per a una comunitat més àmplia. Google continua dedicat a preservar les pràctiques responsables d'IA i a garantir l'ús segur i responsable de SoundStorm i avenços comparables en el camp a mesura que evoluciona la tecnologia.
VALL-E, l'últim model de text a veu (TTS) de Microsoft, és un gran pas endavant en la millora de la manera com aquests sistemes generen veu. VALL-E és a Model TTS basat en transformadors que poden generar veu en qualsevol veu després d'escoltar només una mostra de tres segons d'aquesta veu. Aquest és un gran avenç respecte a models anteriors, que requerien un període de formació significativament més llarg per desenvolupar una nova veu.

Llegeix més sobre AI:

etiquetes:

renúncia

En línia amb la Directrius del projecte Trust, si us plau, tingueu en compte que la informació proporcionada en aquesta pàgina no pretén ni s'ha d'interpretar com a assessorament legal, fiscal, d'inversió, financer o de cap altra forma. És important invertir només el que et pots permetre perdre i buscar assessorament financer independent si tens dubtes. Per obtenir més informació, us suggerim que feu referència als termes i condicions, així com a les pàgines d'ajuda i assistència proporcionades per l'emissor o l'anunciant. MetaversePost es compromet a fer informes precisos i imparcials, però les condicions del mercat estan subjectes a canvis sense previ avís.

About The Autor

Damir és el líder d'equip, cap de producte i editor de Metaverse Post, que cobreix temes com AI/ML, AGI, LLMs, Metaverse i Web3-camps relacionats. Els seus articles atrauen una audiència massiva de més d'un milió d'usuaris cada mes. Sembla ser un expert amb 10 anys d'experiència en SEO i màrqueting digital. Damir ha estat esmentat a Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i altres publicacions. Viatja entre els Emirats Àrabs Units, Turquia, Rússia i la CEI com a nòmada digital. Damir va obtenir una llicenciatura en física, que creu que li ha donat les habilitats de pensament crític necessàries per tenir èxit en el paisatge en constant canvi d'Internet.

més articles

Damir Yalalov