30. gada 2023. maijs

SoundStorm: Google atklāj šausminošo AI rīku, kas spēj reāllaika balss replikāciju

by Damirs Jalalovs

Publicēts: 30. gada 2023. maijā plkst. 10:00 Atjaunināts: 30. gada 2023. maijā plkst. 7:26

by Karolīna Gašča

Rediģēts un pārbaudīts ar faktu: 30. gada 2023. maijs, plkst. 10:00

Īsumā

Google ir ieviesis SoundStorm, progresīvu modeli efektīvai un neautoregresīvai audio ģenerēšanai.

Tas izmanto divvirzienu uzmanību un uz pārliecību balstītu paralēlo dekodēšanu, lai radītu augstas kvalitātes audio, vienlaikus ievērojami samazinot ģenerēšanas laiku.

Tam ir arī iespēja sintezēt dabiskus dialogus.

Google ir ieviesis savu jaunāko sasniegumu mākslīgā intelekta tehnoloģijā ar SoundStorm, progresīvs modelis efektīvai un neautoregresīvai audio ģenerēšanai. Ar spēju sintezēt dialogus ar dažādām balsīm, SoundStorm paver jaunas iespējas lietojumprogrammām, piemēram, audio satura ģenerēšanai no rakstīta teksta un reālistisku aplādes izveidei.

SoundStorm: Google atklāj šausminošo AI rīku, kas spēj reāllaika balss replikāciju — @Midjourney

Atšķirībā no tā priekšgājēja AudioLM, SoundStorm izmanto jaunu arhitektūru, kas ģenerē audio 30 sekunžu gabalos, uzlabojot efektivitāti. Izmantojot divvirzienu uzmanību un uz pārliecību balstītu paralēlo dekodēšanu, modelis rada augstas kvalitātes audio, vienlaikus ievērojami samazinot ģenerēšanas laiku. Google TPU-v4 aparatūrā SoundStorm var ģenerēt 30 sekunžu audio tikai 0.5 sekundēs, kas iezīmē būtisku ātruma uzlabojumu.

SoundStorm apmācība tika veikta, izmantojot 100,000 XNUMX stundu dialoga apjomīgu datu kopu, nodrošinot spēcīgu izpratni par runātās valodas modeļiem. Modelis sasniedz iespaidīgu konsekvenci balss un akustiskajos apstākļos, vienlaikus saglabājot AudioLM sasniegto audio kvalitāti. Šis sasniegums padara SoundStorm par divām kārtām ātrāku nekā tā priekšgājējs, parādot tā potenciālu mērogojamā audio ģenerēšanai.

Viena no galvenajām SoundStorm iespējām ir tās spēja sintezēt dabiskus dialogus, izmantojot SPEAR-TTS teksta pārveides semantiskās modelēšanas posmu. Nodrošinot atšifrējumus ar skaļruņu pagriezieniem un īsām balss uzvednēm, lietotāji var kontrolēt runāto saturu un runātāju balsis. Testēšanas laikā SoundStorm demonstrēja spēju sintezēt 30 sekunžu dialoga segmentus tikai 2 sekundēs vienā TPU-v4, parādot tā efektivitāti un daudzpusību.

Balss uzvedne

Sintezēts dialogs

Salīdzinot ar standarta bāzes līniju, SoundStorm ģenerētais audio ir līdzvērtīgs AudioLM kvalitātei un demonstrē izcilu konsekvenci un akustisko integritāti. Proti, kad tiek piedāvāts sniegt runas paraugu, modelis saglabā runātāja balsi ar pārsteidzošu precizitāti, ievērojami palielinot tā spēju radīt reālistisku dialogu.

Lai gan SoundStorm iespējas ir izcilas, ir ļoti svarīgi atpazīt un atrisināt iespējamos ētikas problēmas. Algoritma apmācības dati var radīt novirzes saistībā ar akcentiem un balss funkcijām. Spēja atdarināt balsis var tikt ļaunprātīgi izmantota uzdošanās par personu vai apiet biometrisko identifikāciju. Google uzsver, ka ir svarīgi ieviest aizsardzību, lai novērstu šādu ļaunprātīgu izmantošanu un nosakāmības nodrošināšana izveidotā audio, izmantojot īpašus klasifikatorus.

Google ētiskie AI principi virza tā pastāvīgos centienus novērst iespējamos apdraudējumus un ierobežojumus. Organizācija apzinās nepieciešamību veikt rūpīgu apmācību datu un modeļa rezultātu izpēti. Viņi arī plāno izpētīt papildu pieejas, piemēram, audio ūdenszīmes, lai noteiktu sintezētu runu, lai ētiski izmantotu šo tehnoloģiju.

SoundStorm ir liels solis uz priekšu AI vadītā audio ražošanā, nodrošinot augstas kvalitātes un efektīvus neironu audio kodeku atvasinātus audio attēlojumus. Google sagaida, ka SoundStorm mazākās atmiņas un apstrādes vajadzības padarīs audio ģenerēšanas pētījumus pieejamāku plašākai sabiedrībai. Google joprojām cenšas saglabāt atbildīgu AI praksi un nodrošināt drošu un atbildīgu SoundStorm izmantošanu un salīdzināmus sasniegumus šajā jomā, attīstoties tehnoloģijai.
IELEJAMicrosoft jaunākais teksta pārveides runā (TTS) modelis ir milzīgs solis uz priekšu, uzlabojot to, kā šīs sistēmas ģenerē balsi. VALL-E ir a TTS modelis pamatojoties uz transformatoriem, kas var ģenerēt runu jebkurā balsī tikai pēc trīs sekunžu šīs balss parauga noklausīšanās. Tas ir liels sasniegums salīdzinājumā ar iepriekšējiem modeļiem, kuriem bija nepieciešams ievērojami ilgāks apmācības periods, lai izstrādātu jaunu balsi.

Lasiet vairāk par AI:

Tags:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē.

Vairāk rakstus

Damirs Jalalovs