AI Startup MyShell lansează algoritmul OpenVoice pentru clonarea precisă a vocii
Pe scurt
Startup-ul canadian de inteligență artificială MyShell a anunțat că a creat algoritmul OpenVoice pentru clonarea instantanee a vocii.
Respeecher, Voicemod și ElevenLabs – toate cele trei startup-uri au un lucru în comun – toate oferă algoritmi și software AI pentru realizarea clonelor de voce. Acum, un jucător nou, startup canadian AI MyShell a anunțat că și-a furnizat algoritmul OpenVoice pentru clonarea instantanee a vocii.
MyShell a distribuit actualizarea pe platforma social media X și a spus: „Clonează voci cu o precizie de neegalat, cu control granular al tonului, de la emoție la accent, ritm, pauze și intonație, folosind doar un mic clip audio.”
În cadrul colaborării, cercetătorii de la MIT, MyShell.ai și Universitatea Tsinghua au dezvăluit OpenVoice, care poate replica vocea unui vorbitor și poate genera vorbire în mai multe limbi, folosind doar un scurt fragment audio din sursa originală. De asemenea, surprinde tonul și culoarea unică a vocii vorbitorului.
Potrivit companiei, algoritmul adaugă elemente stilistice cruciale, cum ar fi emoția, accentul, ritmul, pauzele și intonația. Aceste elemente sunt cruciale pentru a face vorbirea să sune real și pentru a crea conversații interesante. Ajută la evitarea sunetului plictisitor pe care îl obțineți adesea cu transpunerea obișnuită a textului în vorbire.
Cum funcționează modelul AI pentru clonarea vocii
Într-o lucrare de cercetare, OpenVoice a împărtășit metodologia din spatele AI pentru clonarea vocii. OpenVoice este compus din două distincte Modele AI: un model text-to-speech (TTS) și un „convertor de tonuri”.
Modelul poate gestiona parametrii de stil și limbile și a fost supus unui „antrenament folosind 30,000 de propoziții” din engleză (atât cu accent american, cât și britanic), vorbitori de chineză și japoneză. Antrenamentul a implicat etichetarea mostrelor pe baza emoțiilor exprimate, iar modelul a învățat intonația, ritmul și pauzele din aceste clipuri audio.
Pe de altă parte, modelul convertorului de tonuri a fost antrenat pe un set vast de date de peste 300,000 de mostre audio de la peste 20,000 de difuzoare diferite. În ambele cazuri, sunetul vorbirii umane a fost convertit în foneme – sunete specifice care diferențiază cuvintele – și reprezentat folosind înglobări vectoriale.
Modelul TTS, folosind un „difuzor de bază”, se combină cu tonul derivat din sunetul înregistrat de utilizator în procesul de antrenament. Împreună, aceste două modele pot replica vocea utilizatorului și pot modifica culoarea tonului – expresia emoțională transmisă în textul vorbit.
Startup-ul a fost înființat în 2023. Anul trecut, MyShell a strâns 5.6 milioane de dolari în finanțare de început, condusă de INCE Capital, și a văzut participarea unor investitori importanți precum Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC și OP Crypto, printre altele.
Potrivit companiei, finanțarea va ajuta la dezvoltarea proprietății Modele AI, crearea unui Studio de creație adaptat aplicațiilor native AI și crearea unui ecosistem vibrant de creatori în domeniul tehnologiei blockchain.
Declinare a responsabilităţii
În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.
Despre autor
Kumar este un jurnalist tehnic cu experiență, cu o specializare în intersecțiile dinamice ale AI/ML, tehnologie de marketing și domenii emergente, cum ar fi cripto, blockchain și NFTs. Cu peste 3 ani de experiență în industrie, Kumar și-a stabilit o experiență dovedită în elaborarea de narațiuni convingătoare, realizarea de interviuri perspicace și furnizarea de informații cuprinzătoare. Expertiza lui Kumar constă în producerea de conținut de mare impact, inclusiv articole, rapoarte și publicații de cercetare pentru platforme proeminente din industrie. Cu un set unic de abilități care combină cunoștințele tehnice și povestirea, Kumar excelează în comunicarea conceptelor tehnologice complexe către diverse audiențe într-o manieră clară și captivantă.
Mai multe articoleKumar este un jurnalist tehnic cu experiență, cu o specializare în intersecțiile dinamice ale AI/ML, tehnologie de marketing și domenii emergente, cum ar fi cripto, blockchain și NFTs. Cu peste 3 ani de experiență în industrie, Kumar și-a stabilit o experiență dovedită în elaborarea de narațiuni convingătoare, realizarea de interviuri perspicace și furnizarea de informații cuprinzătoare. Expertiza lui Kumar constă în producerea de conținut de mare impact, inclusiv articole, rapoarte și publicații de cercetare pentru platforme proeminente din industrie. Cu un set unic de abilități care combină cunoștințele tehnice și povestirea, Kumar excelează în comunicarea conceptelor tehnologice complexe către diverse audiențe într-o manieră clară și captivantă.