VALL-E: „Microsoft“ naujasis nulinio kadro teksto į kalbą modelis gali nukopijuoti kiekvieno balsą per tris sekundes
Trumpai
Tik su trijų sekundžių bet kokio balso pavyzdžiu, transformatoriumi pagrįstas TTS modelis VALL-E gali kalbėti kiekvienu balsu.
Tai reikšminga pažanga natūraliau skambančių TTS sistemų link.
Tačiau „Microsoft“ pateikė kelis naudojamo modelio pavyzdžius, ir akivaizdu, kad tai reiškia reikšmingą TTS technologijos pažangą.
Nuo pirmojo teksto į kalbą (TTS) modelio išleidimo mokslininkai ieško būdų, kaip pagerinti šių sistemų kalbos generavimo būdą. Naujausias „Microsoft“ modelis, SLĖNIS, šiuo atžvilgiu yra svarbus žingsnis į priekį.
VALL-E yra transformatoriumi pagrįstas TTS modelis, kuris gali generuoti kalbą bet kokiu balsu, tik išgirdęs trijų sekundžių to balso pavyzdį. Tai reikšmingas patobulinimas, palyginti su ankstesniais modeliais, kuriems prireikė daug ilgesnio mokymo laikotarpio, kad būtų sukurtas naujas balsas.
Susijęs straipsnis: „Microsoft“ išleido difuzijos modelį, kuris gali sukurti 3D avatarą iš vienos asmens nuotraukos |
Be to, generuojamoje kalboje nepaliesta balso intonacija, charizma ir stilius. Tai svarbus žingsnis į priekį, kad TTS sistemos skambėtų natūraliau.
Šis modelis yra pagrįstas transformatoriumi ir turi Dale-1 išvaizdą. Negalima painioti su difuzijos pagrindu pagamintu Dalle-2. Kodo dar trūksta. Ir vartotojai skeptiškai vertina tai paskelbdami.
Susijęs straipsnis: Atrodo, kad „Microsoft“ VALL-E yra pati pavojingiausia sukčių programinė įranga |
Tačiau „Microsoft“ išleido kelis veikiančio modelio pavyzdžius ir akivaizdu, kad tai yra didelis TTS technologijos pažanga.
#1 Pavyzdys:
Pavyzdys #2:
#3 Pavyzdys:
Skaitykite daugiau apie AI:
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Damiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.
Daugiau straipsniųDamiras yra komandos vadovas, produktų vadovas ir redaktorius Metaverse Post, apimantis tokias temas kaip AI/ML, AGI, LLM, Metaverse ir Web3– susijusiose srityse. Jo straipsniai kas mėnesį pritraukia didžiulę daugiau nei milijono vartotojų auditoriją. Atrodo, kad jis yra ekspertas, turintis 10 metų SEO ir skaitmeninės rinkodaros patirtį. Damiras buvo paminėtas Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto ir kiti leidiniai. Jis keliauja tarp JAE, Turkijos, Rusijos ir NVS kaip skaitmeninis klajoklis. Damiras įgijo fizikos bakalauro laipsnį, kuris, jo manymu, suteikė jam kritinio mąstymo įgūdžių, reikalingų sėkmingam nuolat besikeičiančiame interneto peizaže.