Nyhetsrapport Teknologi
Januari 03, 2024

AI Startup MyShell släpper OpenVoice-algoritmen för exakt röstkloning

I korthet

Den kanadensiska AI-starten MyShell meddelade att den har öppnat sin OpenVoice-algoritm för omedelbar röstkloning.

AI Startup MyShell släpper OpenVoice-algoritmen för exakt röstkloning

Respeecher, Voicemod och ElevenLabs – alla tre startups har en sak gemensamt – de tillhandahåller alla algoritmer och AI-mjukvara för att göra röstkloner. Nu, en ny spelare, Canadian AI startup MyShell meddelade att den har öppnat sin OpenVoice-algoritm för omedelbar röstkloning.

MyShell delade uppdateringen på sociala medieplattform X och sa, "Klona röster med oöverträffad precision, med granulär kontroll av tonen, från känsla till accent, rytm, pauser och intonation, med bara ett litet ljudklipp."

Under samarbetet avtäckte forskare från MIT, MyShell.ai och Tsinghua University OpenVoice, som kan replikera en talares röst och generera tal i flera språk, med endast ett kort ljudavsnitt från originalkällan. Den fångar också den unika tonen och färgen på talarens röst.

Enligt företaget lägger algoritmen till avgörande stilelement som känsla, accent, rytm, pauser och intonation. Dessa element är avgörande för att få tal att låta verkligt och skapa intressanta konversationer. Det hjälper till att undvika det tråkiga ljudet du ofta får med vanlig text-till-tal.

Hur AI-modellen för röstkloning fungerar

I en uppsats, delade OpenVoice metoden bakom sin röstklonings-AI. OpenVoice består av två distinkta AI-modeller: en text-till-tal-modell (TTS) och en "tonomvandlare."

Modellen kan hantera stilparametrar och språk, och har genomgått "träning med 30,000 XNUMX meningar" från engelska (med både amerikanska och brittiska accenter), kinesiska och japanska talare. Utbildningen innebar att märka proverna baserat på de uttryckta känslorna, och modellen lärde sig intonation, rytm och pauser från dessa ljudklipp.

Å andra sidan tränades tonomvandlarmodellen på ett stort dataset med över 300,000 20,000 ljudprover från mer än XNUMX XNUMX olika högtalare. I båda fallen omvandlades mänskligt talljud till fonem – specifika ljud som skiljer ord – och representerades med hjälp av vektorinbäddningar.

TTS-modellen, som använder en "bashögtalare", kombineras med tonen som härrör från en användares inspelade ljud i träningsprocessen. Tillsammans kan dessa två modeller replikera användarens röst och modifiera tonfärgen – det känslomässiga uttrycket som förmedlas i den talade texten.

Startupen grundades 2023. Förra året samlade MyShell in 5.6 miljoner dollar i såddfinansiering, ledd av INCE Capital, och såg bland annat deltagande av framstående investerare som Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC och OP Crypto.

Enligt företaget kommer finansieringen att hjälpa till att främja proprietär AI-modeller, skapandet av en Creator Studio skräddarsydd för AI-native appar, och etableringen av ett levande skaparekosystem inom blockchain-teknikens område.

Villkor

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Kumar är en erfaren teknisk journalist med specialisering på de dynamiska skärningspunkterna mellan AI/ML, marknadsföringsteknologi och framväxande områden som krypto, blockchain och NFTs. Med över 3 års erfarenhet i branschen har Kumar etablerat en bevisad meritlista i att skapa övertygande berättelser, genomföra insiktsfulla intervjuer och leverera omfattande insikter. Kumars expertis ligger i att producera innehåll med hög effekt, inklusive artiklar, rapporter och forskningspublikationer för framstående industriplattformar. Med en unik kompetens som kombinerar teknisk kunskap och berättande, utmärker Kumar sig på att kommunicera komplexa tekniska koncept till olika publik på ett tydligt och engagerande sätt.

fler artiklar
Kumar Gandharv
Kumar Gandharv

Kumar är en erfaren teknisk journalist med specialisering på de dynamiska skärningspunkterna mellan AI/ML, marknadsföringsteknologi och framväxande områden som krypto, blockchain och NFTs. Med över 3 års erfarenhet i branschen har Kumar etablerat en bevisad meritlista i att skapa övertygande berättelser, genomföra insiktsfulla intervjuer och leverera omfattande insikter. Kumars expertis ligger i att producera innehåll med hög effekt, inklusive artiklar, rapporter och forskningspublikationer för framstående industriplattformar. Med en unik kompetens som kombinerar teknisk kunskap och berättande, utmärker Kumar sig på att kommunicera komplexa tekniska koncept till olika publik på ett tydligt och engagerande sätt.

Institutionell aptit växer mot Bitcoin ETFs mitt i volatilitet

Avslöjande genom 13F-anmälningar avslöjar anmärkningsvärda institutionella investerare som sysslar med Bitcoin ETF:er, vilket understryker en växande acceptans av ...

Lär dig mer

Straffdagen anländer: CZ:s öde hänger i balans när den amerikanska domstolen överväger DOJ:s vädjande

Changpeng Zhao är redo att dömas i en amerikansk domstol i Seattle i dag.

Lär dig mer
Gå med i vår innovativa teknikgemenskap
Läs mer
Läs mer
Crypto Exchange OKX listar Notcoin, inställd på att introducera spothandel med NOT-USDT-par den 16 maj
Marknader Nyhetsrapport Teknologi
Crypto Exchange OKX listar Notcoin, inställd på att introducera spothandel med NOT-USDT-par den 16 maj  
Maj 10, 2024
Blast lanserar tredje Blast Gold Distribution Event, tilldelar 15 miljoner poäng till DApps
Marknader Nyhetsrapport Teknologi
Blast lanserar tredje Blast Gold Distribution Event, tilldelar 15 miljoner poäng till DApps
Maj 10, 2024
Espresso Systems samarbetar med Polygon Labs för att utveckla AggLayer för att förbättra samverkanskompatibiliteten
Företag Nyhetsrapport Teknologi
Espresso Systems samarbetar med Polygon Labs för att utveckla AggLayer för att förbättra samverkanskompatibiliteten
Maj 9, 2024
ZKP-drivet infrastrukturprotokoll ZKBase avslöjar färdplan, planerar att lansera testnät i maj
Nyhetsrapport Teknologi
ZKP-drivet infrastrukturprotokoll ZKBase avslöjar färdplan, planerar att lansera testnät i maj
Maj 9, 2024