Naujienų ataskaita SMW Technologija
Gali 30, 2023

„SoundStorm“: „Google“ pristato bauginantį AI įrankį, galintį replikuoti balsą realiuoju laiku

Trumpai

„Google“ pristatė „SoundStorm“ – pažangiausią efektyvaus ir neautoregresinio garso generavimo modelį.

Jame naudojamas dvikryptis dėmesys ir pasitikėjimu pagrįstas lygiagretus dekodavimas, kad būtų sukurtas aukštos kokybės garsas ir žymiai sutrumpėtų generavimo laikas.

Ji taip pat turi galimybę sintezuoti natūralius dialogus.

„Google“ pristatė naujausią dirbtinio intelekto technologijos proveržį SoundStorm, pažangiausias modelis efektyviam ir neautoregresyviam garso generavimui. Su galimybe sintezuoti dialogus su skirtingais balsais, SoundStorm atveria naujas galimybes tokioms programoms kaip garso turinio generavimas iš parašyto teksto ir tikroviškų podcast'ų kūrimas.

„SoundStorm“: „Google“ pristato bauginantį AI įrankį, galintį replikuoti balsą realiuoju laiku
@Midjourney

Skirtingai nuo savo pirmtako AudioLM, „SoundStorm“ naudoja naują architektūrą, kuri sukuria garsą 30 sekundžių dalimis, padidindama efektyvumą. Naudojant dvikryptį dėmesį ir pasitikėjimu pagrįstą lygiagretų dekodavimą, modelis sukuria aukštos kokybės garsą ir žymiai sumažina generavimo laiką. „Google“ TPU-v4 aparatinėje įrangoje „SoundStorm“ gali sukurti 30 sekundžių garso įrašą vos per 0.5 sekundės, o tai reiškia esminį greičio pagerėjimą.

„SoundStorm“ mokymas buvo atliktas naudojant didžiulį 100,000 XNUMX valandų dialogo duomenų rinkinį, užtikrinantį tvirtą šnekamosios kalbos modelių supratimą. Modelis pasiekia įspūdingą balso ir akustinių sąlygų nuoseklumą, išlaikant AudioLM pasiektą garso kokybę. Dėl šio laimėjimo „SoundStorm“ yra dviem dydžiais greitesnis nei jo pirmtakas, o tai parodo savo galimybes generuoti keičiamo dydžio garsą.

Viena iš pagrindinių „SoundStorm“ galimybių yra jos gebėjimas sintezuoti natūralius dialogus, naudojant SPEAR-TTS teksto ir semantinio modeliavimo etapą. Pateikdami stenogramas su garsiakalbių pasukimais ir trumpais balso nurodymais, vartotojai gali valdyti tariamą turinį ir garsiakalbių balsus. Bandymų metu „SoundStorm“ pademonstravo gebėjimą susintetinti 30 sekundžių dialogo segmentus vos per 2 sekundes viename TPU-v4, parodydamas jo efektyvumą ir universalumą.

Balso raginimas

Susintetintas dialogas

Palyginti su standartinėmis bazinėmis linijomis, „SoundStorm“ sukurtas garsas yra lygiavertės „AudioLM“ kokybei ir pasižymi puikiu nuoseklumu bei akustiniu vientisumu. Pažymėtina, kad kai raginama pateikti kalbos pavyzdį, modelis išsaugo kalbėtojo balsą nuostabiai tiksliai, o tai labai padidina jo gebėjimą kurti tikrovišką dialogą.

Nors „SoundStorm“ galimybės yra išskirtinės, labai svarbu atpažinti ir išspręsti įmanomas problemas etinius rūpesčius. Algoritmo mokymo duomenys gali sukelti paklaidų, susijusių su akcentais ir balso ypatybėmis. Galimybe mėgdžioti balsus gali būti piktnaudžiaujama apsimetimas arba apeiti biometrinį identifikavimą. „Google“ pabrėžia, kad svarbu įdiegti apsaugą, kad būtų išvengta tokio piktnaudžiavimo ir užtikrinant aptinkamumą sukurto garso per tam skirtus klasifikatorius.

„Google“ etiniai AI principai skatina jos nuolatines pastangas pašalinti galimus pavojus ir suvaržymus. Organizacija supranta, kad reikia atlikti išsamų mokymo duomenų ir modelio rezultato pasekmių tyrimą. Jie taip pat planuoja ištirti papildomus metodus, pvz., garso vandenženklį, kad būtų galima aptikti sintezuotą kalbą, kad būtų galima etiškai panaudoti šią technologiją.

  • „SoundStorm“ yra didelis žingsnis į priekį kuriant AI varomą garso kūrimą, teikiant aukštos kokybės ir veiksmingus neuroninio garso kodeko gautus garso atvaizdus. „Google“ tikisi, kad dėl mažesnių „SoundStorm“ atminties ir apdorojimo poreikių garso generavimo tyrimai taps prieinamesni platesnei bendruomenei. „Google“ ir toliau siekia išlaikyti atsakingą AI praktiką ir užtikrinti saugų bei atsakingą „SoundStorm“ naudojimą ir panašius laimėjimus šioje srityje tobulėjant technologijoms.
  • SLĖNIS, naujausias „Microsoft“ teksto į kalbą (TTS) modelis, yra didžiulis žingsnis į priekį gerinant, kaip šios sistemos generuoja balsą. VALL-E yra a TTS modelis pagrįsti transformatoriais, kurie gali generuoti kalbą bet kokiu balsu tik išgirdę trijų sekundžių to balso pavyzdį. Tai yra didelė pažanga, palyginti su ankstesniais modeliais, kuriems reikėjo žymiai ilgesnio mokymo laikotarpio, norint sukurti naują balsą.

Skaitykite daugiau apie AI:

Atsakomybės neigimas

Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.

Apie autorių

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Daugiau straipsnių
Damiras Jalalovas
Damiras Jalalovas

Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže. 

Hot Stories
Prisijunkite prie mūsų naujienlaiškio.
Paskutinės naujienos

Ateina nuosprendžio paskelbimo diena: CZ likimas subalansuotas, nes JAV teismas svarsto DOJ prašymą

Changpeng Zhao šiandien laukia nuosprendžio JAV teisme Sietle.

Žinoti daugiau

Samourai piniginės įkūrėjai apkaltinti palengvinę 2 mlrd. USD „Darknet“ sandorius

„Samourai Wallet“ įkūrėjų nuogąstavimai yra reikšmingas pramonės nuosmukis, pabrėžiantis nuolatinį ...

Žinoti daugiau
Prisijunkite prie mūsų naujoviškų technologijų bendruomenės
Skaityti daugiau
Skaityti daugiau
„Pantera Capital“ investuoja į „TON Blockchain“ ir išreiškia pasitikėjimą „Telegram“ galimybe išplėsti kriptovaliutų prieinamumą
Atsakingas verslas Naujienų ataskaita Technologija
„Pantera Capital“ investuoja į „TON Blockchain“ ir išreiškia pasitikėjimą „Telegram“ galimybe išplėsti kriptovaliutų prieinamumą
Gali 2, 2024
„Mitosis“ pritraukia 7 mln. USD lėšų iš „Amber Group“ ir „Foresight Ventures“, kad patobulintų savo modulinį likvidumo protokolą
Atsakingas verslas Naujienų ataskaita Technologija
„Mitosis“ pritraukia 7 mln. USD lėšų iš „Amber Group“ ir „Foresight Ventures“, kad patobulintų savo modulinį likvidumo protokolą
Gali 2, 2024
„Galxe“ bendradarbiauja su „Jambo“, siekdama išplėsti pasaulinį prieinamumą Web3
Atsakingas verslas Naujienų ataskaita Technologija
„Galxe“ bendradarbiauja su „Jambo“, siekdama išplėsti pasaulinį prieinamumą Web3
Gali 2, 2024
„Google“ „Med-Gemini“ pasiruošęs duoti pažangą GPT-4 Su puikiu našumu sveikatos priežiūros srityje
AI Wiki Naujienos programinė įranga Technologija
„Google“ „Med-Gemini“ pasiruošęs duoti pažangą GPT-4 Su puikiu našumu sveikatos priežiūros srityje
Gali 2, 2024
CRYPTOMERIA LABS PTE. LTD.