VALL-E: Nový model prevodu textu na reč s nulovým záberom od spoločnosti Microsoft dokáže duplikovať hlas každého za tri sekundy
Stručne
Len s trojsekundovou vzorkou akéhokoľvek hlasu, model TTS založený na transformátore VALL-E dokáže produkovať reč každým hlasom.
Ide o významný pokrok smerom k prirodzenejšie znejúcim systémom TTS.
Spoločnosť Microsoft však poskytla niekoľko vzoriek používaného modelu a je zrejmé, že ide o významný pokrok v technológii TTS.
Od vydania prvého modelu prevodu textu na reč (TTS) výskumníci hľadali spôsoby, ako zlepšiť spôsob, akým tieto systémy generujú reč. Najnovší model od spoločnosti Microsoft, VALLEY, je v tomto smere významným krokom vpred.
VALL-E je model TTS založený na transformátore, ktorý dokáže generovať reč v akomkoľvek hlase po vypočutí iba trojsekundovej vzorky tohto hlasu. Ide o výrazné zlepšenie v porovnaní s predchádzajúcimi modelmi, ktoré si vyžadovali oveľa dlhšie tréningové obdobie, aby sa vytvoril nový hlas.
Súvisiaci článok: Microsoft vydal difúzny model, ktorý dokáže postaviť 3D avatara z jedinej fotografie osoby |
Navyše, intonácia, charizma a štýl hlasu sú v generovanom prejave zachované. Toto je dôležitý krok vpred, aby systémy TTS zneli prirodzenejšie.
Tento model je založený na transformátore a má vzhľad Dale-1. Nesmie sa zamieňať s difúznym Dalle-2. Kód stále chýba. A používatelia sú skeptickí, že to zverejnia.
Súvisiaci článok: Microsoft VALL-E sa javí ako najnebezpečnejší podvodný softvér vôbec |
Microsoft však zverejnil niekoľko príkladov modelu v akcii a je jasné, že ide o veľký pokrok v technológii TTS.
Príklad #1:
Príklad č.2:
Príklad #3:
Prečítajte si viac o AI:
Vylúčenie zodpovednosti
V súlade s Pokyny k projektu Trust, uvedomte si, že informácie uvedené na tejto stránke nie sú zamýšľané a nemali by byť interpretované ako právne, daňové, investičné, finančné alebo iné formy poradenstva. Je dôležité investovať len toľko, koľko si môžete dovoliť stratiť a v prípade akýchkoľvek pochybností vyhľadať nezávislé finančné poradenstvo. Ak chcete získať ďalšie informácie, odporúčame vám pozrieť si zmluvné podmienky, ako aj stránky pomoci a podpory poskytnuté vydavateľom alebo inzerentom. MetaversePost sa zaviazala poskytovať presné a nezaujaté správy, ale podmienky na trhu sa môžu zmeniť bez upozornenia.
O autorovi
Damir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.
Ďalšie článkyDamir je vedúci tímu, produktový manažér a redaktor v Metaverse Post, pokrývajúce témy ako AI/ML, AGI, LLM, Metaverse a Web3- súvisiace oblasti. Jeho články priťahujú každý mesiac obrovské publikum s viac ako miliónom používateľov. Zdá sa, že je odborníkom s 10-ročnými skúsenosťami v oblasti SEO a digitálneho marketingu. Damir bol spomenutý v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a ďalšie publikácie. Ako digitálny nomád cestuje medzi SAE, Tureckom, Ruskom a SNŠ. Damir získal bakalársky titul z fyziky, o ktorom sa domnieva, že mu dal schopnosti kritického myslenia potrebné na to, aby bol úspešný v neustále sa meniacom prostredí internetu.