AI Startup MyShell objavljuje OpenVoice algoritam za precizno kloniranje glasa
Ukratko
Kanadska AI startup MyShell objavila je da je otvorila svoj OpenVoice algoritam za trenutno kloniranje glasa.
Repeecher, Voicemod i ElevenLabs – sva tri startupa imaju jednu zajedničku stvar – svi pružaju algoritme i AI softver za izradu glasovnih klonova. Sada, novi igrač, kanadski AI startup MyShell objavila je da je otvorila svoj OpenVoice algoritam za trenutno kloniranje glasa.
MyShell je podijelio ažuriranje na platforma društvenih medija X i rekao: "Klonirajte glasove s neusporedivom preciznošću, s preciznom kontrolom tona, od emocija do naglaska, ritma, pauza i intonacije, koristeći samo mali audio isječak."
U sklopu suradnje, istraživači s MIT-a, MyShell.ai i Sveučilišta Tsinghua predstavili su OpenVoice, koji može replicirati glas govornika i generirati govor u više jezika, koristeći samo kratki zvučni isječak iz izvornog izvora. Također bilježi jedinstveni ton i boju glasa govornika.
Prema tvrtki, algoritam dodaje ključne stilske elemente kao što su emocija, naglasak, ritam, pauze i intonacija. Ovi su elementi ključni za stvaranje stvarnog govora i stvaranje zanimljivih razgovora. Pomaže u izbjegavanju dosadnog zvuka koji često dobivate s uobičajenim pretvaranjem teksta u govor.
Kako funkcionira AI model kloniranja glasa
U znanstveni rad, OpenVoice je podijelio metodologiju iza svoje umjetne inteligencije za kloniranje glasa. OpenVoice se sastoji od dva različita AI modeli: model pretvaranja teksta u govor (TTS) i "pretvornik tonova".
Model može upravljati parametrima stila i jezicima i prošao je "obuku koristeći 30,000 rečenica" govornika engleskog (s američkim i britanskim naglaskom), kineskog i japanskog. Obuka je uključivala označavanje uzoraka na temelju izraženih emocija, a model je iz tih audio zapisa učio intonaciju, ritam i pauze.
S druge strane, model pretvarača tona treniran je na ogromnom skupu podataka od preko 300,000 audio uzoraka iz više od 20,000 različitih zvučnika. U oba slučaja, zvuk ljudskog govora pretvoren je u foneme – specifične zvukove koji razlikuju riječi – i predstavljen korištenjem vektorskih umetanja.
TTS model, koji koristi "osnovni zvučnik", kombinira se s tonom koji proizlazi iz audio zapisa korisnika u procesu vježbanja. Zajedno, ova dva modela mogu replicirati glas korisnika i modificirati boju tona - emocionalni izraz prenesen u izgovorenom tekstu.
Startup je osnovan 2023. Prošle je godine MyShell prikupio 5.6 milijuna dolara početnih sredstava, predvođen INCE Capitalom, a među ostalima su sudjelovali i istaknuti investitori kao što su Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC i OP Crypto.
Prema tvrtki, financiranje će pomoći u napretku vlasništva AI modeli, stvaranje Creator Studija skrojenog za AI izvorne aplikacije i uspostavljanje živahnog kreatorskog ekosustava unutar carstva blockchain tehnologije.
Izjava o odricanju od odgovornosti
U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.
O autoru
Kumar je iskusan tehnološki novinar sa specijalizacijom u dinamičkim raskrižjima AI/ML-a, marketinške tehnologije i novih područja kao što su kripto, blockchain i NFTs. S više od 3 godine iskustva u industriji, Kumar ima dokazanu reputaciju u izradi uvjerljivih priča, provođenju pronicljivih intervjua i pružanju sveobuhvatnih uvida. Kumarova stručnost leži u izradi sadržaja visokog utjecaja, uključujući članke, izvješća i istraživačke publikacije za istaknute industrijske platforme. S jedinstvenim skupom vještina koje kombiniraju tehničko znanje i pripovijedanje, Kumar se ističe u komuniciranju složenih tehnoloških koncepata različitoj publici na jasan i privlačan način.
Više članakaKumar je iskusan tehnološki novinar sa specijalizacijom u dinamičkim raskrižjima AI/ML-a, marketinške tehnologije i novih područja kao što su kripto, blockchain i NFTs. S više od 3 godine iskustva u industriji, Kumar ima dokazanu reputaciju u izradi uvjerljivih priča, provođenju pronicljivih intervjua i pružanju sveobuhvatnih uvida. Kumarova stručnost leži u izradi sadržaja visokog utjecaja, uključujući članke, izvješća i istraživačke publikacije za istaknute industrijske platforme. S jedinstvenim skupom vještina koje kombiniraju tehničko znanje i pripovijedanje, Kumar se ističe u komuniciranju složenih tehnoloških koncepata različitoj publici na jasan i privlačan način.