AI Startup MyShell frigiver OpenVoice-algoritmen til præcis stemmekloning
Kort sagt
Den canadiske AI-startup MyShell annoncerede, at den har åbnet sin OpenVoice-algoritme til øjeblikkelig stemmekloning.
Respeecher, Voicemod og ElevenLabs – alle tre startups har én ting til fælles – de leverer alle algoritmer og AI-software til at lave stemmekloner. Nu en ny spiller, canadisk AI-startup MyShell annonceret, at den har åbnet sin OpenVoice-algoritme til øjeblikkelig stemmekloning.
MyShell delte opdateringen den sociale medier platform X og sagde: "Klon stemmer med uovertruffen præcision, med granulær kontrol af tone, fra følelser til accent, rytme, pauser og intonation, kun ved hjælp af et lille lydklip."
Under samarbejdet afslørede forskere fra MIT, MyShell.ai og Tsinghua University OpenVoice, som kan replikere en højttalers stemme og generere tale i Flere sprog, kun ved hjælp af et kort lydstykke fra den originale kilde. Den fanger også den unikke tone og farve af højttalerens stemme.
Ifølge virksomheden tilføjer algoritmen afgørende stilistiske elementer såsom følelser, accent, rytme, pauser og intonation. Disse elementer er afgørende for at få tale til at lyde ægte og skabe interessante samtaler. Det hjælper med at undgå den kedelige lyd, du ofte får med almindelig tekst-til-tale.
Sådan fungerer Voice-Cloning AI-modellen
I en forskningsartikel, delte OpenVoice metoden bag sin stemmekloning AI. OpenVoice er sammensat af to forskellige AI modeller: en tekst-til-tale-model (TTS) og en "tonekonverter".
Modellen kan styre stilparametre og sprog og har gennemgået "træning med 30,000 sætninger" fra engelsk (med både amerikansk og britisk accenter), kinesisk- og japansktalende. Træningen involverede at mærke prøverne baseret på de udtrykte følelser, og modellen lærte intonation, rytme og pauser fra disse lydklip.
På den anden side blev tonekonvertermodellen trænet på et stort datasæt med over 300,000 lydprøver fra mere end 20,000 forskellige højttalere. I begge tilfælde blev menneskelig talelyd konverteret til fonemer - specifikke lyde, der adskiller ord - og repræsenteret ved hjælp af vektorindlejringer.
TTS-modellen, der bruger en "basishøjttaler", kombineres med tonen, der stammer fra en brugers optagede lyd i træningsprocessen. Sammen kan disse to modeller replikere brugerens stemme og ændre tonefarven - det følelsesmæssige udtryk, der formidles i den talte tekst.
Startup'et blev grundlagt i 2023. Sidste år rejste MyShell $5.6 millioner i startfinansiering, ledet af INCE Capital, og så deltagelse af prominente investorer som Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC og OP Crypto, blandt andre.
Ifølge selskabet vil finansieringen hjælpe med at fremme proprietær AI modeller, oprettelsen af et Creator Studio skræddersyet til AI-native apps og etableringen af et levende skaberøkosystem inden for blockchain-teknologiens område.
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Kumar er en erfaren teknisk journalist med speciale i de dynamiske skæringspunkter mellem AI/ML, marketingteknologi og nye områder som krypto, blockchain og NFTs. Med over 3 års erfaring i branchen har Kumar etableret en dokumenteret track record i at skabe overbevisende fortællinger, udføre indsigtsfulde interviews og levere omfattende indsigt. Kumars ekspertise ligger i at producere indhold med stor gennemslagskraft, herunder artikler, rapporter og forskningspublikationer til fremtrædende industriplatforme. Med et unikt færdighedssæt, der kombinerer teknisk viden og historiefortælling, udmærker Kumar sig ved at kommunikere komplekse teknologiske koncepter til forskellige målgrupper på en klar og engagerende måde.
Flere artiklerKumar er en erfaren teknisk journalist med speciale i de dynamiske skæringspunkter mellem AI/ML, marketingteknologi og nye områder som krypto, blockchain og NFTs. Med over 3 års erfaring i branchen har Kumar etableret en dokumenteret track record i at skabe overbevisende fortællinger, udføre indsigtsfulde interviews og levere omfattende indsigt. Kumars ekspertise ligger i at producere indhold med stor gennemslagskraft, herunder artikler, rapporter og forskningspublikationer til fremtrædende industriplatforme. Med et unikt færdighedssæt, der kombinerer teknisk viden og historiefortælling, udmærker Kumar sig ved at kommunikere komplekse teknologiske koncepter til forskellige målgrupper på en klar og engagerende måde.