VALL-E: Microsofts nye zero-shot tekst-til-tale-model kan duplikere alles stemme på tre sekunder
Kort sagt
Med blot en tre-sekunders sample af enhver stemme, den transformer-baserede TTS-model VALL-E kan producere tale i enhver stemme.
Dette er et væsentligt fremskridt i retning af mere naturligt klingende TTS-systemer.
Microsoft har dog leveret et par eksempler på den anvendte model, og det er tydeligt, at dette repræsenterer en væsentlig udvikling inden for TTS-teknologien.
Siden udgivelsen af den første tekst-til-tale-model (TTS) har forskere ledt efter måder at forbedre den måde, disse systemer genererer tale på. Den seneste model fra Microsoft, VAL-E, er et væsentligt skridt fremad i denne henseende.
VALL-E er en transformer-baseret TTS-model, der kan generere tale med enhver stemme efter kun at have hørt en tre-sekunders prøve af den stemme. Dette er en væsentlig forbedring i forhold til tidligere modeller, som krævede en meget længere træningsperiode for at kunne generere en ny stemme.
Relateret artikel: Microsoft har udgivet en diffusionsmodel, der kan bygge en 3D-avatar ud fra et enkelt foto af en person |
Derudover holdes stemmens intonation, karisma og stil alle intakte i den genererede tale. Dette er et vigtigt skridt fremad i at få TTS-systemer til at lyde mere naturligt.
Denne model er transformer-baseret og har et Dale-1 udseende. Ikke at forveksle med den diffusionsbaserede Dalle-2. Koden mangler stadig. Og brugerne har en vis skepsis over, at de vil poste det.
Relateret artikel: Microsofts VALL-E ser ud til at være den farligste fidussoftware nogensinde |
Microsoft har dog udgivet et par eksempler på modellen i aktion, og det er tydeligt, at dette er et stort fremskridt inden for TTS-teknologien.
Eksempel # 1:
Eksempel #2:
Eksempel # 3:
Læs mere om AI:
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Damir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.
Flere artiklerDamir er teamleder, produktchef og redaktør på Metaverse Post, der dækker emner som AI/ML, AGI, LLM'er, Metaverse og Web3-relaterede felter. Hans artikler tiltrækker et massivt publikum på over en million brugere hver måned. Han ser ud til at være en ekspert med 10 års erfaring i SEO og digital markedsføring. Damir er blevet nævnt i Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto og andre publikationer. Han rejser mellem UAE, Tyrkiet, Rusland og SNG som en digital nomade. Damir tog en bachelorgrad i fysik, som han mener har givet ham de kritiske tænkningskompetencer, der er nødvendige for at få succes i internettets evigt skiftende landskab.