Ziņojums SMW Tehnoloģija
30. gada 2023. maijs

SoundStorm: Google atklāj šausminošo AI rīku, kas spēj reāllaika balss replikāciju

Īsumā

Google ir ieviesis SoundStorm, progresīvu modeli efektīvai un neautoregresīvai audio ģenerēšanai.

Tas izmanto divvirzienu uzmanību un uz pārliecību balstītu paralēlo dekodēšanu, lai radītu augstas kvalitātes audio, vienlaikus ievērojami samazinot ģenerēšanas laiku.

Tam ir arī iespēja sintezēt dabiskus dialogus.

Google ir ieviesis savu jaunāko sasniegumu mākslīgā intelekta tehnoloģijā ar SoundStorm, progresīvs modelis efektīvai un neautoregresīvai audio ģenerēšanai. Ar spēju sintezēt dialogus ar dažādām balsīm, SoundStorm paver jaunas iespējas lietojumprogrammām, piemēram, audio satura ģenerēšanai no rakstīta teksta un reālistisku aplādes izveidei.

SoundStorm: Google atklāj šausminošo AI rīku, kas spēj reāllaika balss replikāciju
@Midjourney

Atšķirībā no tā priekšgājēja AudioLM, SoundStorm izmanto jaunu arhitektūru, kas ģenerē audio 30 sekunžu gabalos, uzlabojot efektivitāti. Izmantojot divvirzienu uzmanību un uz pārliecību balstītu paralēlo dekodēšanu, modelis rada augstas kvalitātes audio, vienlaikus ievērojami samazinot ģenerēšanas laiku. Google TPU-v4 aparatūrā SoundStorm var ģenerēt 30 sekunžu audio tikai 0.5 sekundēs, kas iezīmē būtisku ātruma uzlabojumu.

SoundStorm apmācība tika veikta, izmantojot 100,000 XNUMX stundu dialoga apjomīgu datu kopu, nodrošinot spēcīgu izpratni par runātās valodas modeļiem. Modelis sasniedz iespaidīgu konsekvenci balss un akustiskajos apstākļos, vienlaikus saglabājot AudioLM sasniegto audio kvalitāti. Šis sasniegums padara SoundStorm par divām kārtām ātrāku nekā tā priekšgājējs, parādot tā potenciālu mērogojamā audio ģenerēšanai.

Viena no galvenajām SoundStorm iespējām ir tās spēja sintezēt dabiskus dialogus, izmantojot SPEAR-TTS teksta pārveides semantiskās modelēšanas posmu. Nodrošinot atšifrējumus ar skaļruņu pagriezieniem un īsām balss uzvednēm, lietotāji var kontrolēt runāto saturu un runātāju balsis. Testēšanas laikā SoundStorm demonstrēja spēju sintezēt 30 sekunžu dialoga segmentus tikai 2 sekundēs vienā TPU-v4, parādot tā efektivitāti un daudzpusību.

Balss uzvedne

Sintezēts dialogs

Salīdzinot ar standarta bāzes līniju, SoundStorm ģenerētais audio ir līdzvērtīgs AudioLM kvalitātei un demonstrē izcilu konsekvenci un akustisko integritāti. Proti, kad tiek piedāvāts sniegt runas paraugu, modelis saglabā runātāja balsi ar pārsteidzošu precizitāti, ievērojami palielinot tā spēju radīt reālistisku dialogu.

Lai gan SoundStorm iespējas ir izcilas, ir ļoti svarīgi atpazīt un atrisināt iespējamos ētikas problēmas. Algoritma apmācības dati var radīt novirzes saistībā ar akcentiem un balss funkcijām. Spēja atdarināt balsis var tikt ļaunprātīgi izmantota uzdošanās par personu vai apiet biometrisko identifikāciju. Google uzsver, ka ir svarīgi ieviest aizsardzību, lai novērstu šādu ļaunprātīgu izmantošanu un nosakāmības nodrošināšana izveidotā audio, izmantojot īpašus klasifikatorus.

Google ētiskie AI principi virza tā pastāvīgos centienus novērst iespējamos apdraudējumus un ierobežojumus. Organizācija apzinās nepieciešamību veikt rūpīgu apmācību datu un modeļa rezultātu izpēti. Viņi arī plāno izpētīt papildu pieejas, piemēram, audio ūdenszīmes, lai noteiktu sintezētu runu, lai ētiski izmantotu šo tehnoloģiju.

  • SoundStorm ir liels solis uz priekšu AI vadītā audio ražošanā, nodrošinot augstas kvalitātes un efektīvus neironu audio kodeku atvasinātus audio attēlojumus. Google sagaida, ka SoundStorm mazākās atmiņas un apstrādes vajadzības padarīs audio ģenerēšanas pētījumus pieejamāku plašākai sabiedrībai. Google joprojām cenšas saglabāt atbildīgu AI praksi un nodrošināt drošu un atbildīgu SoundStorm izmantošanu un salīdzināmus sasniegumus šajā jomā, attīstoties tehnoloģijai.
  • IELEJAMicrosoft jaunākais teksta pārveides runā (TTS) modelis ir milzīgs solis uz priekšu, uzlabojot to, kā šīs sistēmas ģenerē balsi. VALL-E ir a TTS modelis pamatojoties uz transformatoriem, kas var ģenerēt runu jebkurā balsī tikai pēc trīs sekunžu šīs balss parauga noklausīšanās. Tas ir liels sasniegums salīdzinājumā ar iepriekšējiem modeļiem, kuriem bija nepieciešams ievērojami ilgāks apmācības periods, lai izstrādātu jaunu balsi.

Lasiet vairāk par AI:

Atbildības noraidīšana

Atbilstīgi Uzticības projekta vadlīnijas, lūdzu, ņemiet vērā, ka šajā lapā sniegtā informācija nav paredzēta un to nedrīkst interpretēt kā juridisku, nodokļu, ieguldījumu, finanšu vai jebkāda cita veida padomu. Ir svarīgi ieguldīt tikai to, ko varat atļauties zaudēt, un meklēt neatkarīgu finanšu padomu, ja jums ir šaubas. Lai iegūtu papildinformāciju, iesakām skatīt pakalpojumu sniegšanas noteikumus, kā arī palīdzības un atbalsta lapas, ko nodrošina izdevējs vai reklāmdevējs. MetaversePost ir apņēmies sniegt precīzus, objektīvus pārskatus, taču tirgus apstākļi var tikt mainīti bez iepriekšēja brīdinājuma.

Par Autors

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē. 

Vairāk rakstus
Damirs Jalalovs
Damirs Jalalovs

Damirs ir komandas vadītājs, produktu vadītājs un redaktors Metaverse Post, kas aptver tādas tēmas kā AI/ML, AGI, LLM, Metaverse un Web3- saistītie lauki. Viņa raksti katru mēnesi piesaista lielu auditoriju, kas pārsniedz miljonu lietotāju. Šķiet, ka viņš ir eksperts ar 10 gadu pieredzi SEO un digitālā mārketinga jomā. Damirs ir minēts Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto un citas publikācijas. Viņš ceļo starp AAE, Turciju, Krieviju un NVS kā digitālais nomads. Damirs ir ieguvis bakalaura grādu fizikā, kas, viņaprāt, ir devis viņam kritiskās domāšanas prasmes, kas nepieciešamas, lai gūtu panākumus nepārtraukti mainīgajā interneta vidē. 

Hot Stories
Pievienojieties mūsu informatīvajam izdevumam.
Jaunākās ziņas

Pienāk notiesāšanas diena: CZ liktenis ir līdzsvarā, jo ASV tiesa izskata DOJ lūgumu

Šodien ASV tiesā Sietlā Čanpens Džao ir gatavs notiesāt.

Uzziniet vairāk

Samourai Wallet dibinātāji tiek apsūdzēti par 2 miljardu dolāru atvieglošanu Darknet darījumos

Samourai Wallet dibinātāju bažas ir ievērojams neveiksme nozarei, uzsverot neatlaidīgo ...

Uzziniet vairāk
Pievienojieties mūsu novatoriskajai tehnoloģiju kopienai
Lasīt vairāk
Vairāk
Pantera Capital iegulda TON blokķēdē, pauž pārliecību par telegrammas potenciālu paplašināt kriptovalūtu pieejamību
bizness Ziņojums Tehnoloģija
Pantera Capital iegulda TON blokķēdē, pauž pārliecību par telegrammas potenciālu paplašināt kriptovalūtu pieejamību
2. gada 2024. maijs
Mitoze piesaista 7 miljonus ASV dolāru finansējumu no Amber Group un Foresight Ventures, lai uzlabotu tās modulārās likviditātes protokolu
bizness Ziņojums Tehnoloģija
Mitoze piesaista 7 miljonus ASV dolāru finansējumu no Amber Group un Foresight Ventures, lai uzlabotu tās modulārās likviditātes protokolu
2. gada 2024. maijs
Galxe sadarbojas ar Jambo, lai paplašinātu globālo pieejamību Web3
bizness Ziņojums Tehnoloģija
Galxe sadarbojas ar Jambo, lai paplašinātu globālo pieejamību Web3
2. gada 2024. maijs
Google Med-Gemini ir gatavs dot panākumus GPT-4 Ar savu izcilo sniegumu veselības aprūpē
AI Wiki Jaunumi programmatūra Tehnoloģija
Google Med-Gemini ir gatavs dot panākumus GPT-4 Ar savu izcilo sniegumu veselības aprūpē
2. gada 2024. maijs
CRYPTOMERIA LABS PTE. LTD.