Novinky Technika
Srpna 30, 2023

VALL-E X: Nejnebezpečnější podvodný nástroj pro klonování hlasu AI nyní Open Source

Stručně

Model Microsoft VALL-E X zero-shot TTS byl vydán jako open source, který uživatelům umožňuje prozkoumat pokročilou syntézu textu na řeč a klonování hlasu.

Model podporuje plynulou syntézu řeči v angličtině, čínštině a japonštině, klonování hlasu zero-shot, ovládání emocí řeči, mezijazykovou syntézu řeči zero-shot, ovládání přízvuku a přizpůsobení akustického prostředí.

VALL-E X bezproblémově funguje na CPU i GPU, pro optimální výkon je vyžadována 6GB GPU VRAM.

Implementace s otevřeným zdrojovým kódem Microsoft VALL-E X zero-shot TTS model byl odhalen, což uživatelům umožňuje ponořit se do sfér pokročilé syntézy textu na řeč a klonování hlasu. Tento vývoj přichází jako expanze První výzkumný dokument společnosti Microsoft, která postrádala kód nebo předtrénované modely nezbytné pro praktické prozkoumávání. Díky této verzi získává technologická komunita přístup k výkonnému nástroji pro funkce TTS nové generace.

VALL-E X: Nejnebezpečnější podvodný nástroj pro klonování hlasu AI nyní Open Source
VALL-E X: Průlom ve vícejazyčné syntéze textu na řeč a klonování hlasu
PODOBNÉ ČLÁNKY: Microsoft VALL-E se zdá být nejnebezpečnějším podvodným softwarem vůbec

VALL-E X je výjimečný vícejazyčný model převodu textu na řeč představený společností Microsoft. Zatímco původní výzkumný dokument byl informativní, postrádal praktické využití kvůli absence kódu nebo předtrénovaných modelů. K překlenutí této mezery se specializovaný tým ujal výzvy reprodukovat výsledky a trénovat náš vlastní model VALL-E X. Výsledek našeho snažení je nyní k dispozici veřejnosti a umožňuje širšímu publiku zažít transformační potenciál špičkové technologie TTS.

VALL-E X se vyznačuje několika převratnými funkcemi:

  • Vícejazyčný TTS: Model podporuje plynulou syntézu řeči ve třech jazycích: angličtině, čínštině a japonštině. Uživatelé mohou zažít přirozenou a výraznou syntézu řeči napříč těmito jazyky.
  • Klonování hlasu s nulovým snímkem: Nahráním krátké 3 až 10sekundové ukázky hlasu neznámého mluvčího má VALL-E X schopnost generovat personalizovanou, vysoce kvalitní řeč, která odráží jedinečné vokální vlastnosti mluvčího.
  • Ovládání emocí řeči: VALL-E X dokáže naplnit syntetizovanou řeč specifickými emocemi a přidat do zvukového výstupu vrstvu expresivity, která je v souladu s poskytnutou akustickou výzvou.
  • Syntéza mezijazykové řeči s nulovým záběrem: Model může produkovat personalizovanou řeč v jiném jazyce při zachování plynulosti a přízvuku, čímž rozšiřuje lingvistické obzory monolingvních mluvčích.
  • Ovládání přízvuku: VALL-E X nabízí experimentování s přízvukem, což uživatelům umožňuje vytvářet obsah s různými přízvuky, jako je mluvení čínsky s anglickým přízvukem a naopak.
  • Přizpůsobení akustického prostředí: Model pojme různé zvukové výzvy a přizpůsobí se akustickému prostředí vstupu, aby poskytoval přirozený a pohlcující zážitek z generace řeči.

Navíc VALL-E X rozšiřuje svou podporu na čínštinu a japonštinu a může se pochlubit výjimečným výkonem ve všech třech jazycích.

Díky tomu je VALL-E X všestranným a účinným nástrojem jazykové podpory pro uživatele v různých jazykových prostředích.
PODOBNÉ ČLÁNKY: VALL-E: Nový model převodu textu na řeč s nulovým snímkem od společnosti Microsoft dokáže duplikovat hlas každého během tří sekund

Možnosti klonování hlasu VALL-E X usnadňují vytváření hlasových pokynů pomocí hlasu osoby, postavy nebo vlastního hlasu. Vzorek řeči o délce 3 až 10 sekund spolu s přepisem je vše, co je potřeba k vytvoření zřetelné hlasové výzvy. Uživatelsky přívětivé grafické rozhraní dále zjednodušuje interakci s VALL-E X, díky čemuž je klonování hlasu a vícejazyčná syntéza řeči snadno přístupné.

Je pozoruhodné, že VALL-E X bezproblémově funguje na CPU i GPU (pytorch 2.0+, CUDA 11.7 a CUDA 12.0). Efektivní design modelu zajišťuje, že GPU VRAM o velikosti 6 GB je dostačující pro provoz bez zátěže.

Ve srovnání s Model kůry, VALL-E X nabízí několik výhod:

  • Lehčí, zabírá pouze 3/4 prostoru.
  • Zvýšená účinnost díky 4násobnému zvýšení rychlosti.
  • Vynikající kvalita v čínštině a japonštině.
  • Mezijazyčná syntéza řeči bez cizích přízvuků.
  • Snadné možnosti klonování hlasu.

Pokud jde o požadavky na VRAM, 6GB GPU VRAM splňuje kritéria pro efektivní provoz VALL-E X. Pro delší generování textu však musí celková délka zvukové výzvy a generovaného zvuku zůstat pod 22 sekund, aby byl zajištěn optimální výkon.

Licencování VALL-E X s otevřeným zdrojovým kódem, které se řídí licencí MIT, znamená novou éru dostupnosti a průzkumu v oblasti vícejazyčné syntézy textu na řeč a klonování hlasu.

Přečtěte si více o AI:

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Další články
Damir Yalalov
Damir Yalalov

Damir je vedoucí týmu, produktový manažer a editor ve společnosti Metaverse Post, pokrývající témata jako AI/ML, AGI, LLM, Metaverse a Web3- související obory. Jeho články přitahují každý měsíc masivní publikum čítající více než milion uživatelů. Jeví se jako odborník s 10 lety zkušeností v oblasti SEO a digitálního marketingu. Damir byl zmíněn v Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto a další publikace. Jako digitální nomád cestuje mezi SAE, Tureckem, Ruskem a SNS. Damir získal bakalářský titul z fyziky, o kterém se domnívá, že mu dal dovednosti kritického myšlení potřebné k úspěchu v neustále se měnícím prostředí internetu. 

Institucionální apetit roste směrem k bitcoinovým ETF uprostřed volatility

Zveřejnění prostřednictvím podání 13F odhaluje, že pozoruhodní institucionální investoři fušují do bitcoinových ETF, což podtrhuje rostoucí akceptaci...

Vědět více

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
Notcoin ke spuštění na OKX Jumpstart nabízí 1.25 % celkové dodávky tokenů pro těžbu
Trhy Novinky Technika
Notcoin ke spuštění na OKX Jumpstart nabízí 1.25 % celkové dodávky tokenů pro těžbu
9
Puffer Finance spouští svou hlavní síť, zlepšuje začlenění operátorů uzlů pro decentralizaci sítě
Novinky Technika
Puffer Finance spouští svou hlavní síť, zlepšuje začlenění operátorů uzlů pro decentralizaci sítě
9
Společnost Nexo zahajuje „hon“, aby odměnila uživatele 12 miliony dolarů v tokenech NEXO za zapojení do jejího ekosystému
Trhy Novinky Technika
Společnost Nexo zahajuje „hon“, aby odměnila uživatele 12 miliony dolarů v tokenech NEXO za zapojení do jejího ekosystému
8
Revolut X Exchange Crypto Traders s nulovými poplatky za tvůrce a pokročilou analýzou
Trhy Vývoj Příběhy a recenze Technika
Revolut X Exchange Crypto Traders s nulovými poplatky za tvůrce a pokročilou analýzou
8
CRYPTOMERIA LABS PTE. LTD.