Buletin de stiri Tehnologia
Ianuarie 03, 2024

AI Startup MyShell lansează algoritmul OpenVoice pentru clonarea precisă a vocii

Pe scurt

Startup-ul canadian de inteligență artificială MyShell a anunțat că a creat algoritmul OpenVoice pentru clonarea instantanee a vocii.

AI Startup MyShell lansează algoritmul OpenVoice pentru clonarea precisă a vocii

Respeecher, Voicemod și ElevenLabs – toate cele trei startup-uri au un lucru în comun – toate oferă algoritmi și software AI pentru realizarea clonelor de voce. Acum, un jucător nou, startup canadian AI MyShell a anunțat că și-a furnizat algoritmul OpenVoice pentru clonarea instantanee a vocii.

MyShell a distribuit actualizarea pe platforma social media X și a spus: „Clonează voci cu o precizie de neegalat, cu control granular al tonului, de la emoție la accent, ritm, pauze și intonație, folosind doar un mic clip audio.”

În cadrul colaborării, cercetătorii de la MIT, MyShell.ai și Universitatea Tsinghua au dezvăluit OpenVoice, care poate replica vocea unui vorbitor și poate genera vorbire în mai multe limbi, folosind doar un scurt fragment audio din sursa originală. De asemenea, surprinde tonul și culoarea unică a vocii vorbitorului.

Potrivit companiei, algoritmul adaugă elemente stilistice cruciale, cum ar fi emoția, accentul, ritmul, pauzele și intonația. Aceste elemente sunt cruciale pentru a face vorbirea să sune real și pentru a crea conversații interesante. Ajută la evitarea sunetului plictisitor pe care îl obțineți adesea cu transpunerea obișnuită a textului în vorbire.

Cum funcționează modelul AI pentru clonarea vocii

Într-o lucrare de cercetare, OpenVoice a împărtășit metodologia din spatele AI pentru clonarea vocii. OpenVoice este compus din două distincte Modele AI: un model text-to-speech (TTS) și un „convertor de tonuri”.

Modelul poate gestiona parametrii de stil și limbile și a fost supus unui „antrenament folosind 30,000 de propoziții” din engleză (atât cu accent american, cât și britanic), vorbitori de chineză și japoneză. Antrenamentul a implicat etichetarea mostrelor pe baza emoțiilor exprimate, iar modelul a învățat intonația, ritmul și pauzele din aceste clipuri audio.

Pe de altă parte, modelul convertorului de tonuri a fost antrenat pe un set vast de date de peste 300,000 de mostre audio de la peste 20,000 de difuzoare diferite. În ambele cazuri, sunetul vorbirii umane a fost convertit în foneme – sunete specifice care diferențiază cuvintele – și reprezentat folosind înglobări vectoriale.

Modelul TTS, folosind un „difuzor de bază”, se combină cu tonul derivat din sunetul înregistrat de utilizator în procesul de antrenament. Împreună, aceste două modele pot replica vocea utilizatorului și pot modifica culoarea tonului – expresia emoțională transmisă în textul vorbit.

Startup-ul a fost înființat în 2023. Anul trecut, MyShell a strâns 5.6 milioane de dolari în finanțare de început, condusă de INCE Capital, și a văzut participarea unor investitori importanți precum Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC și OP Crypto, printre altele.

Potrivit companiei, finanțarea va ajuta la dezvoltarea proprietății Modele AI, crearea unui Studio de creație adaptat aplicațiilor native AI și crearea unui ecosistem vibrant de creatori în domeniul tehnologiei blockchain.

Declinare a responsabilităţii

În conformitate cu Ghidurile proiectului Trust, vă rugăm să rețineți că informațiile furnizate pe această pagină nu sunt destinate și nu trebuie interpretate ca fiind consiliere juridică, fiscală, investițională, financiară sau orice altă formă de consiliere. Este important să investești doar ceea ce îți poți permite să pierzi și să cauți sfaturi financiare independente dacă ai îndoieli. Pentru informații suplimentare, vă sugerăm să consultați termenii și condițiile, precum și paginile de ajutor și asistență furnizate de emitent sau agent de publicitate. MetaversePost se angajează să raporteze corecte, imparțial, dar condițiile de piață pot fi modificate fără notificare.

Despre autor

Kumar este un jurnalist tehnic cu experiență, cu o specializare în intersecțiile dinamice ale AI/ML, tehnologie de marketing și domenii emergente, cum ar fi cripto, blockchain și NFTs. Cu peste 3 ani de experiență în industrie, Kumar și-a stabilit o experiență dovedită în elaborarea de narațiuni convingătoare, realizarea de interviuri perspicace și furnizarea de informații cuprinzătoare. Expertiza lui Kumar constă în producerea de conținut de mare impact, inclusiv articole, rapoarte și publicații de cercetare pentru platforme proeminente din industrie. Cu un set unic de abilități care combină cunoștințele tehnice și povestirea, Kumar excelează în comunicarea conceptelor tehnologice complexe către diverse audiențe într-o manieră clară și captivantă.

Mai multe articole
Kumar Gandharv
Kumar Gandharv

Kumar este un jurnalist tehnic cu experiență, cu o specializare în intersecțiile dinamice ale AI/ML, tehnologie de marketing și domenii emergente, cum ar fi cripto, blockchain și NFTs. Cu peste 3 ani de experiență în industrie, Kumar și-a stabilit o experiență dovedită în elaborarea de narațiuni convingătoare, realizarea de interviuri perspicace și furnizarea de informații cuprinzătoare. Expertiza lui Kumar constă în producerea de conținut de mare impact, inclusiv articole, rapoarte și publicații de cercetare pentru platforme proeminente din industrie. Cu un set unic de abilități care combină cunoștințele tehnice și povestirea, Kumar excelează în comunicarea conceptelor tehnologice complexe către diverse audiențe într-o manieră clară și captivantă.

Apetitul instituțional crește față de ETF-urile Bitcoin pe fondul volatilității

Dezvăluirile prin dosarele 13F dezvăluie investitori instituționali de seamă care se amestecă în ETF-uri Bitcoin, subliniind o acceptare tot mai mare a...

Aflați mai multe

Sosește ziua sentinței: soarta lui CZ este în echilibru, în timp ce tribunalul american ia în considerare pledoaria DOJ

Changpeng Zhao este pe cale de a fi condamnat astăzi într-un tribunal american din Seattle.

Aflați mai multe
Alăturați-vă comunității noastre tehnologice inovatoare
Citeste mai mult
Află mai multe
Crypto Exchange OKX listează Notcoin și urmează să introducă tranzacționarea spot cu perechea NOT-USDT pe 16 mai
pieţe Buletin de stiri Tehnologia
Crypto Exchange OKX listează Notcoin și urmează să introducă tranzacționarea spot cu perechea NOT-USDT pe 16 mai  
10 Mai, 2024
Blast lansează al treilea eveniment de distribuire Blast Gold, alocă 15 milioane de puncte DApps
pieţe Buletin de stiri Tehnologia
Blast lansează al treilea eveniment de distribuire Blast Gold, alocă 15 milioane de puncte DApps
10 Mai, 2024
Espresso Systems colaborează cu Polygon Labs pentru a dezvolta AggLayer pentru îmbunătățirea interoperabilității rollup-ului
Afaceri Buletin de stiri Tehnologia
Espresso Systems colaborează cu Polygon Labs pentru a dezvolta AggLayer pentru îmbunătățirea interoperabilității rollup-ului
9 Mai, 2024
Protocolul de infrastructură alimentat de ZKP ZKBase dezvăluie foaia de parcurs și plănuiește lansarea Testnetului în mai
Buletin de stiri Tehnologia
Protocolul de infrastructură alimentat de ZKP ZKBase dezvăluie foaia de parcurs și plănuiește lansarea Testnetului în mai
9 Mai, 2024
CRYPTOMERIA LABS PTE. LTD.