VALL-E: Microsoftov novi zero-shot model teksta u govor može duplicirati svačiji glas u tri sekunde
Ukratko
Sa samo tri sekunde uzorka bilo kojeg glasa, TTS model temeljen na transformatoru VALL-E može proizvesti govor u svakom glasu.
Ovo je značajan napredak u smjeru TTS sustava koji zvuče prirodnije.
Microsoft je ipak dao nekoliko uzoraka modela koji se koristi i očito je da to predstavlja značajan napredak u TTS tehnologiji.
Od izdavanja prvog modela pretvaranja teksta u govor (TTS), istraživači su tražili načine za poboljšanje načina na koji ti sustavi generiraju govor. Najnoviji model tvrtke Microsoft, DOLINA, značajan je korak naprijed u tom pogledu.
VALL-E je TTS model temeljen na transformatoru koji može generirati govor bilo kojim glasom nakon što čuje samo uzorak od tri sekunde tog glasa. Ovo je značajno poboljšanje u odnosu na prethodne modele, koji su zahtijevali mnogo dulje razdoblje obuke kako bi se generirao novi glas.
Povezani članak: Microsoft je objavio difuzijski model koji može napraviti 3D avatar od jedne fotografije osobe |
Osim toga, intonacija, karizma i stil glasa ostaju netaknuti u generiranom govoru. Ovo je važan korak naprijed u stvaranju prirodnijeg zvuka TTS sustava.
Ovaj model se temelji na transformatoru i ima izgled Dale-1. Ne smije se brkati s Dalle-2 temeljenim na difuziji. Kod još uvijek nedostaje. I korisnici imaju određeni skepticizam da će to objaviti.
Međutim, Microsoft je objavio nekoliko primjera modela na djelu i jasno je da se radi o velikom napretku u TTS tehnologiji.
Primjer #1:
Primjer #2:
Primjer #3:
Pročitajte više o AI:
Izjava o odricanju od odgovornosti
U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.
O autoru
Damir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.
Više članakaDamir je voditelj tima, product manager i urednik u Metaverse Post, koji pokriva teme kao što su AI/ML, AGI, LLMs, Metaverse i Web3- srodna polja. Njegovi članci privlače ogromnu publiku od preko milijun korisnika svakog mjeseca. Čini se da je stručnjak s 10 godina iskustva u SEO-u i digitalnom marketingu. Damir je spomenut u Mashableu, Wiredu, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto i druge publikacije. Putuje između UAE, Turske, Rusije i CIS-a kao digitalni nomad. Damir je stekao diplomu prvostupnika fizike, za koju vjeruje da mu je dala vještine kritičkog razmišljanja potrebne za uspjeh u stalno promjenjivom okruženju interneta.