Novinky Technika
Ledna 03, 2024

AI Startup MyShell uvádí OpenVoice algoritmus pro přesné klonování hlasu

Stručně

Kanadský startup MyShell s umělou inteligencí oznámil, že otevřel svůj OpenVoice algoritmus pro okamžité klonování hlasu.

AI Startup MyShell uvádí OpenVoice algoritmus pro přesné klonování hlasu

Respeecher, Voicemod a ElevenLabs – všechny tři startupy mají jedno společné – všechny poskytují algoritmy a AI software pro vytváření hlasových klonů. Nyní nový hráč, kanadský startup AI MyShell oznámila, že otevřela svůj algoritmus OpenVoice pro okamžité klonování hlasu.

MyShell sdílel aktualizaci na platforma sociálních médií X a řekl: "Klonujte hlasy s nesrovnatelnou přesností, s granulární kontrolou tónu, od emocí po přízvuk, rytmus, pauzy a intonaci, jen pomocí malého zvukového klipu."

V rámci této spolupráce odhalili vědci z MIT, MyShell.ai a Tsinghua University OpenVoice, která dokáže replikovat hlas mluvčího a generovat řeč v více jazykůs použitím pouze krátkého zvukového úryvku z původního zdroje. Zachycuje také jedinečný tón a barvu hlasu mluvčího.

Algoritmus podle společnosti přidává zásadní stylistické prvky, jako jsou emoce, přízvuk, rytmus, pauzy a intonace. Tyto prvky jsou klíčové pro to, aby řeč zněla reálně a vytvořily se zajímavé konverzace. Pomáhá vyhnout se nudnému zvuku, který často získáváte při běžném převodu textu na řeč.

Jak funguje model AI pro hlasové klonování

V výzkum papír, OpenVoice sdílel metodologii své AI pro klonování hlasu. OpenVoice se skládá ze dvou odlišných AI modely: model převodu textu na řeč (TTS) a „převodník tónů“.

Model dokáže spravovat parametry stylu a jazyky a prošel „tréninkem pomocí 30,000 XNUMX vět“ z angličtiny (v americkém i britském přízvuku), čínských a japonských mluvčích. Trénink zahrnoval označování vzorků na základě vyjádřených emocí a model se z těchto zvukových klipů naučil intonaci, rytmus a pauzy.

Na druhou stranu byl model tónového převodníku trénován na rozsáhlém datovém souboru více než 300,000 20,000 zvukových vzorků z více než XNUMX XNUMX různých reproduktorů. V obou případech byl zvuk lidské řeči převeden na fonémy – specifické zvuky, které rozlišují slova – a reprezentován pomocí vektorových vložení.

Model TTS využívající „základní reproduktor“ se kombinuje s tónem odvozeným z nahraného zvuku uživatele v tréninkovém procesu. Společně mohou tyto dva modely replikovat hlas uživatele a upravit barvu tónu – emocionální výraz vyjádřený v mluveném textu.

Startup byl založen v roce 2023. Loni MyShell získal 5.6 milionu dolarů v počátečním financování, vedené INCE Capital, a viděl účast významných investorů, jako jsou Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC a OP Crypto, mezi jinými.

Financování podle společnosti pomůže v rozvoji proprietárních AI modely, vytvoření Creator Studio šitého na míru pro nativní aplikace s umělou inteligencí a vytvoření živého tvůrčího ekosystému v oblasti technologie blockchain.

Odmítnutí odpovědnosti

V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.

O autorovi

Kumar je zkušený technický novinář se specializací na dynamické průniky AI/ML, marketingové technologie a nově vznikající obory, jako jsou kryptoměny, blockchain a NFTs. S více než 3 lety zkušeností v oboru si Kumar vytvořil prokazatelné výsledky ve vytváření působivých příběhů, vedení zasvěcených rozhovorů a poskytování komplexních poznatků. Kumarova odbornost spočívá ve vytváření vysoce působivého obsahu, včetně článků, zpráv a výzkumných publikací pro prominentní průmyslové platformy. Díky jedinečné sadě dovedností, které kombinují technické znalosti a vyprávění příběhů, Kumar vyniká v komunikaci složitých technologických konceptů pro různé publikum jasným a poutavým způsobem.

Další články
Kumar Gandharv
Kumar Gandharv

Kumar je zkušený technický novinář se specializací na dynamické průniky AI/ML, marketingové technologie a nově vznikající obory, jako jsou kryptoměny, blockchain a NFTs. S více než 3 lety zkušeností v oboru si Kumar vytvořil prokazatelné výsledky ve vytváření působivých příběhů, vedení zasvěcených rozhovorů a poskytování komplexních poznatků. Kumarova odbornost spočívá ve vytváření vysoce působivého obsahu, včetně článků, zpráv a výzkumných publikací pro prominentní průmyslové platformy. Díky jedinečné sadě dovedností, které kombinují technické znalosti a vyprávění příběhů, Kumar vyniká v komunikaci složitých technologických konceptů pro různé publikum jasným a poutavým způsobem.

Institucionální apetit roste směrem k bitcoinovým ETF uprostřed volatility

Zveřejnění prostřednictvím podání 13F odhaluje, že pozoruhodní institucionální investoři fušují do bitcoinových ETF, což podtrhuje rostoucí akceptaci...

Vědět více

Přichází den odsouzení: Osud CZ visí v rovnováze, protože americký soud zvažuje žalobu ministerstva spravedlnosti

Changpeng Zhao je dnes připraven čelit rozsudku u amerického soudu v Seattlu.

Vědět více
Připojte se k naší komunitě inovativních technologií
Více
Dozvědět se více
NuLink se spustí na Bybit Web3 Platforma IDO. Fáze předplatného se prodlužuje do 13. května
Trhy Novinky Technika
NuLink se spustí na Bybit Web3 Platforma IDO. Fáze předplatného se prodlužuje do 13. května
9
UXLINK a Binance spolupracují na nové kampani, která uživatelům nabízí 20 milionů UXUY bodů a Airdrop Odměny
Trhy Novinky Technika
UXLINK a Binance spolupracují na nové kampani, která uživatelům nabízí 20 milionů UXUY bodů a Airdrop Odměny
9
Side Protocol spouští Incentivized Testnet a zavádí systém Insider Point System, který uživatelům umožňuje získávat SIDE body
Trhy Novinky Technika
Side Protocol spouští Incentivized Testnet a zavádí systém Insider Point System, který uživatelům umožňuje získávat SIDE body
9
Web3 a Crypto Events v květnu 2024: Zkoumání nových technologií a nových trendů v blockchainu a DeFi
Strávit Business Trhy Technika
Web3 a Crypto Events v květnu 2024: Zkoumání nových technologií a nových trendů v blockchainu a DeFi
9
CRYPTOMERIA LABS PTE. LTD.