AI Startup MyShell uvádí OpenVoice algoritmus pro přesné klonování hlasu
Stručně
Kanadský startup MyShell s umělou inteligencí oznámil, že otevřel svůj OpenVoice algoritmus pro okamžité klonování hlasu.
Respeecher, Voicemod a ElevenLabs – všechny tři startupy mají jedno společné – všechny poskytují algoritmy a AI software pro vytváření hlasových klonů. Nyní nový hráč, kanadský startup AI MyShell oznámila, že otevřela svůj algoritmus OpenVoice pro okamžité klonování hlasu.
MyShell sdílel aktualizaci na platforma sociálních médií X a řekl: "Klonujte hlasy s nesrovnatelnou přesností, s granulární kontrolou tónu, od emocí po přízvuk, rytmus, pauzy a intonaci, jen pomocí malého zvukového klipu."
V rámci této spolupráce odhalili vědci z MIT, MyShell.ai a Tsinghua University OpenVoice, která dokáže replikovat hlas mluvčího a generovat řeč v více jazykůs použitím pouze krátkého zvukového úryvku z původního zdroje. Zachycuje také jedinečný tón a barvu hlasu mluvčího.
Algoritmus podle společnosti přidává zásadní stylistické prvky, jako jsou emoce, přízvuk, rytmus, pauzy a intonace. Tyto prvky jsou klíčové pro to, aby řeč zněla reálně a vytvořily se zajímavé konverzace. Pomáhá vyhnout se nudnému zvuku, který často získáváte při běžném převodu textu na řeč.
Jak funguje model AI pro hlasové klonování
V výzkum papír, OpenVoice sdílel metodologii své AI pro klonování hlasu. OpenVoice se skládá ze dvou odlišných AI modely: model převodu textu na řeč (TTS) a „převodník tónů“.
Model dokáže spravovat parametry stylu a jazyky a prošel „tréninkem pomocí 30,000 XNUMX vět“ z angličtiny (v americkém i britském přízvuku), čínských a japonských mluvčích. Trénink zahrnoval označování vzorků na základě vyjádřených emocí a model se z těchto zvukových klipů naučil intonaci, rytmus a pauzy.
Na druhou stranu byl model tónového převodníku trénován na rozsáhlém datovém souboru více než 300,000 20,000 zvukových vzorků z více než XNUMX XNUMX různých reproduktorů. V obou případech byl zvuk lidské řeči převeden na fonémy – specifické zvuky, které rozlišují slova – a reprezentován pomocí vektorových vložení.
Model TTS využívající „základní reproduktor“ se kombinuje s tónem odvozeným z nahraného zvuku uživatele v tréninkovém procesu. Společně mohou tyto dva modely replikovat hlas uživatele a upravit barvu tónu – emocionální výraz vyjádřený v mluveném textu.
Startup byl založen v roce 2023. Loni MyShell získal 5.6 milionu dolarů v počátečním financování, vedené INCE Capital, a viděl účast významných investorů, jako jsou Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC a OP Crypto, mezi jinými.
Financování podle společnosti pomůže v rozvoji proprietárních AI modely, vytvoření Creator Studio šitého na míru pro nativní aplikace s umělou inteligencí a vytvoření živého tvůrčího ekosystému v oblasti technologie blockchain.
Odmítnutí odpovědnosti
V souladu s Pokyny k projektu Trust, prosím vezměte na vědomí, že informace uvedené na této stránce nejsou určeny a neměly by být vykládány jako právní, daňové, investiční, finanční nebo jakékoli jiné formy poradenství. Je důležité investovat jen to, co si můžete dovolit ztratit, a v případě pochybností vyhledat nezávislé finanční poradenství. Pro další informace doporučujeme nahlédnout do smluvních podmínek a také na stránky nápovědy a podpory poskytnuté vydavatelem nebo inzerentem. MetaversePost se zavázala poskytovat přesné a nezaujaté zprávy, ale podmínky na trhu se mohou bez upozornění změnit.
O autorovi
Kumar je zkušený technický novinář se specializací na dynamické průniky AI/ML, marketingové technologie a nově vznikající obory, jako jsou kryptoměny, blockchain a NFTs. S více než 3 lety zkušeností v oboru si Kumar vytvořil prokazatelné výsledky ve vytváření působivých příběhů, vedení zasvěcených rozhovorů a poskytování komplexních poznatků. Kumarova odbornost spočívá ve vytváření vysoce působivého obsahu, včetně článků, zpráv a výzkumných publikací pro prominentní průmyslové platformy. Díky jedinečné sadě dovedností, které kombinují technické znalosti a vyprávění příběhů, Kumar vyniká v komunikaci složitých technologických konceptů pro různé publikum jasným a poutavým způsobem.
Další článkyKumar je zkušený technický novinář se specializací na dynamické průniky AI/ML, marketingové technologie a nově vznikající obory, jako jsou kryptoměny, blockchain a NFTs. S více než 3 lety zkušeností v oboru si Kumar vytvořil prokazatelné výsledky ve vytváření působivých příběhů, vedení zasvěcených rozhovorů a poskytování komplexních poznatků. Kumarova odbornost spočívá ve vytváření vysoce působivého obsahu, včetně článků, zpráv a výzkumných publikací pro prominentní průmyslové platformy. Díky jedinečné sadě dovedností, které kombinují technické znalosti a vyprávění příběhů, Kumar vyniká v komunikaci složitých technologických konceptů pro různé publikum jasným a poutavým způsobem.