„SoundStorm“: „Google“ pristato bauginantį AI įrankį, galintį replikuoti balsą realiuoju laiku
Trumpai
„Google“ pristatė „SoundStorm“ – pažangiausią efektyvaus ir neautoregresinio garso generavimo modelį.
Jame naudojamas dvikryptis dėmesys ir pasitikėjimu pagrįstas lygiagretus dekodavimas, kad būtų sukurtas aukštos kokybės garsas ir žymiai sutrumpėtų generavimo laikas.
Ji taip pat turi galimybę sintezuoti natūralius dialogus.
„Google“ pristatė naujausią dirbtinio intelekto technologijos proveržį SoundStorm, pažangiausias modelis efektyviam ir neautoregresyviam garso generavimui. Su galimybe sintezuoti dialogus su skirtingais balsais, SoundStorm atveria naujas galimybes tokioms programoms kaip garso turinio generavimas iš parašyto teksto ir tikroviškų podcast'ų kūrimas.
Skirtingai nuo savo pirmtako AudioLM, „SoundStorm“ naudoja naują architektūrą, kuri sukuria garsą 30 sekundžių dalimis, padidindama efektyvumą. Naudojant dvikryptį dėmesį ir pasitikėjimu pagrįstą lygiagretų dekodavimą, modelis sukuria aukštos kokybės garsą ir žymiai sumažina generavimo laiką. „Google“ TPU-v4 aparatinėje įrangoje „SoundStorm“ gali sukurti 30 sekundžių garso įrašą vos per 0.5 sekundės, o tai reiškia esminį greičio pagerėjimą.
„SoundStorm“ mokymas buvo atliktas naudojant didžiulį 100,000 XNUMX valandų dialogo duomenų rinkinį, užtikrinantį tvirtą šnekamosios kalbos modelių supratimą. Modelis pasiekia įspūdingą balso ir akustinių sąlygų nuoseklumą, išlaikant AudioLM pasiektą garso kokybę. Dėl šio laimėjimo „SoundStorm“ yra dviem dydžiais greitesnis nei jo pirmtakas, o tai parodo savo galimybes generuoti keičiamo dydžio garsą.
Viena iš pagrindinių „SoundStorm“ galimybių yra jos gebėjimas sintezuoti natūralius dialogus, naudojant SPEAR-TTS teksto ir semantinio modeliavimo etapą. Pateikdami stenogramas su garsiakalbių pasukimais ir trumpais balso nurodymais, vartotojai gali valdyti tariamą turinį ir garsiakalbių balsus. Bandymų metu „SoundStorm“ pademonstravo gebėjimą susintetinti 30 sekundžių dialogo segmentus vos per 2 sekundes viename TPU-v4, parodydamas jo efektyvumą ir universalumą.
Balso raginimas
Susintetintas dialogas
Palyginti su standartinėmis bazinėmis linijomis, „SoundStorm“ sukurtas garsas yra lygiavertės „AudioLM“ kokybei ir pasižymi puikiu nuoseklumu bei akustiniu vientisumu. Pažymėtina, kad kai raginama pateikti kalbos pavyzdį, modelis išsaugo kalbėtojo balsą nuostabiai tiksliai, o tai labai padidina jo gebėjimą kurti tikrovišką dialogą.
Nors „SoundStorm“ galimybės yra išskirtinės, labai svarbu atpažinti ir išspręsti įmanomas problemas etinius rūpesčius. Algoritmo mokymo duomenys gali sukelti paklaidų, susijusių su akcentais ir balso ypatybėmis. Galimybe mėgdžioti balsus gali būti piktnaudžiaujama apsimetimas arba apeiti biometrinį identifikavimą. „Google“ pabrėžia, kad svarbu įdiegti apsaugą, kad būtų išvengta tokio piktnaudžiavimo ir užtikrinant aptinkamumą sukurto garso per tam skirtus klasifikatorius.
„Google“ etiniai AI principai skatina jos nuolatines pastangas pašalinti galimus pavojus ir suvaržymus. Organizacija supranta, kad reikia atlikti išsamų mokymo duomenų ir modelio rezultato pasekmių tyrimą. Jie taip pat planuoja ištirti papildomus metodus, pvz., garso vandenženklį, kad būtų galima aptikti sintezuotą kalbą, kad būtų galima etiškai panaudoti šią technologiją.
- „SoundStorm“ yra didelis žingsnis į priekį kuriant AI varomą garso kūrimą, teikiant aukštos kokybės ir veiksmingus neuroninio garso kodeko gautus garso atvaizdus. „Google“ tikisi, kad dėl mažesnių „SoundStorm“ atminties ir apdorojimo poreikių garso generavimo tyrimai taps prieinamesni platesnei bendruomenei. „Google“ ir toliau siekia išlaikyti atsakingą AI praktiką ir užtikrinti saugų bei atsakingą „SoundStorm“ naudojimą ir panašius laimėjimus šioje srityje tobulėjant technologijoms.
- SLĖNIS, naujausias „Microsoft“ teksto į kalbą (TTS) modelis, yra didžiulis žingsnis į priekį gerinant, kaip šios sistemos generuoja balsą. VALL-E yra a TTS modelis pagrįsti transformatoriais, kurie gali generuoti kalbą bet kokiu balsu tik išgirdę trijų sekundžių to balso pavyzdį. Tai yra didelė pažanga, palyginti su ankstesniais modeliais, kuriems reikėjo žymiai ilgesnio mokymo laikotarpio, norint sukurti naują balsą.
Skaitykite daugiau apie AI:
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.
Daugiau straipsniųDamiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.