Notizie Tecnologia
Gennaio 03, 2024

L'avvio di AI MyShell rilascia l'algoritmo OpenVoice per una clonazione vocale precisa

In Breve

La startup canadese di intelligenza artificiale MyShell ha annunciato di aver reso open source il suo algoritmo OpenVoice per la clonazione vocale istantanea.

L'avvio di AI MyShell rilascia l'algoritmo OpenVoice per una clonazione vocale precisa

Respeecher, Voicemod e UndiciLabs – tutte e tre le startup hanno una cosa in comune: forniscono algoritmi e software di intelligenza artificiale per creare cloni vocali. Ora, un nuovo giocatore, la startup canadese di intelligenza artificiale MyShell ha annunciato di aver reso open source il suo algoritmo OpenVoice per la clonazione vocale istantanea.

MyShell ha condiviso l'aggiornamento su piattaforma di social media X e ha detto: "Clona voci con una precisione senza pari, con un controllo granulare del tono, dall'emozione all'accento, al ritmo, alle pause e all'intonazione, utilizzando solo una piccola clip audio".

Nell'ambito della collaborazione, i ricercatori del MIT, MyShell.ai e dell'Università Tsinghua hanno presentato OpenVoice, che può replicare la voce di chi parla e generare parlato in diverse lingue, utilizzando solo un breve frammento audio dalla fonte originale. Cattura anche il tono e il colore unici della voce di chi parla.

Secondo l’azienda, l’algoritmo aggiunge elementi stilistici cruciali come emozione, accento, ritmo, pause e intonazione. Questi elementi sono cruciali per rendere reale il parlato e creare conversazioni interessanti. Aiuta a evitare il suono noioso che spesso si ottiene con la normale sintesi vocale.

Come funziona il modello di intelligenza artificiale per la clonazione della voce

In un documento di ricerca, OpenVoice ha condiviso la metodologia alla base della sua intelligenza artificiale per la clonazione della voce. OpenVoice è composto da due distinti Modelli AI: un modello di sintesi vocale (TTS) e un "convertitore di toni".

Il modello può gestire parametri di stile e lingue ed è stato sottoposto a un "addestramento utilizzando 30,000 frasi" da persone di lingua inglese (con accento americano e britannico), cinese e giapponese. La formazione prevedeva l'etichettatura dei campioni in base alle emozioni espresse e il modello ha imparato l'intonazione, il ritmo e le pause da queste clip audio.

D’altra parte, il modello del convertitore di tono è stato addestrato su un vasto set di dati di oltre 300,000 campioni audio provenienti da più di 20,000 altoparlanti diversi. In entrambi i casi, l’audio del parlato umano è stato convertito in fonemi – suoni specifici che differenziano le parole – e rappresentato utilizzando incorporamenti di vettori.

Il modello TTS, che utilizza un “altoparlante di base”, si combina con il tono derivato dall’audio registrato di un utente nel processo di formazione. Insieme, questi due modelli possono replicare la voce dell’utente e modificare il colore del tono, ovvero l’espressione emotiva trasmessa nel testo parlato.

La startup è stata fondata nel 2023. L'anno scorso, MyShell ha raccolto 5.6 milioni di dollari in finanziamenti iniziali, guidati da INCE Capital, e ha visto la partecipazione di importanti investitori come Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC e OP Crypto, tra gli altri.

Secondo la società, il finanziamento aiuterà nel progresso della proprietà Modelli AI, la creazione di un Creator Studio su misura per le app native dell'intelligenza artificiale e la creazione di un vivace ecosistema di creatori nel regno della tecnologia blockchain.

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Kumar è un giornalista tecnologico esperto con una specializzazione nelle intersezioni dinamiche di AI/ML, tecnologia di marketing e campi emergenti come criptovaluta, blockchain e NFTS. Con oltre 3 anni di esperienza nel settore, Kumar ha stabilito una comprovata esperienza nella creazione di narrazioni avvincenti, nella conduzione di interviste approfondite e nella fornitura di approfondimenti completi. L'esperienza di Kumar risiede nella produzione di contenuti di grande impatto, inclusi articoli, rapporti e pubblicazioni di ricerca per importanti piattaforme di settore. Con un insieme di competenze uniche che combina conoscenze tecniche e narrazione, Kumar eccelle nel comunicare concetti tecnologici complessi a un pubblico diversificato in modo chiaro e coinvolgente.

Altri articoli
Kumar Gandharv
Kumar Gandharv

Kumar è un giornalista tecnologico esperto con una specializzazione nelle intersezioni dinamiche di AI/ML, tecnologia di marketing e campi emergenti come criptovaluta, blockchain e NFTS. Con oltre 3 anni di esperienza nel settore, Kumar ha stabilito una comprovata esperienza nella creazione di narrazioni avvincenti, nella conduzione di interviste approfondite e nella fornitura di approfondimenti completi. L'esperienza di Kumar risiede nella produzione di contenuti di grande impatto, inclusi articoli, rapporti e pubblicazioni di ricerca per importanti piattaforme di settore. Con un insieme di competenze uniche che combina conoscenze tecniche e narrazione, Kumar eccelle nel comunicare concetti tecnologici complessi a un pubblico diversificato in modo chiaro e coinvolgente.

Cresce l’appetito istituzionale verso gli ETF Bitcoin in un contesto di volatilità

Le informazioni fornite tramite la documentazione 13F rivelano importanti investitori istituzionali che si dilettano negli ETF Bitcoin, sottolineando una crescente accettazione di...

Per saperne di più

Arriva il giorno della sentenza: il destino di CZ è in bilico mentre la Corte degli Stati Uniti considera l'appello del Dipartimento di Giustizia

Changpeng Zhao è pronto ad affrontare oggi la sentenza in un tribunale americano a Seattle.

Per saperne di più
Unisciti alla nostra comunità tecnologica innovativa
Scopri di più
Per saperne di più
L'exchange di criptovalute OKX elenca Notcoin, pronto a introdurre il trading spot con la coppia NOT-USDT il 16 maggio
Mercati Notizie Tecnologia
L'exchange di criptovalute OKX elenca Notcoin, pronto a introdurre il trading spot con la coppia NOT-USDT il 16 maggio  
10 Maggio 2024
Blast lancia il terzo evento di distribuzione Blast Gold, assegna 15 milioni di punti alle DApp
Mercati Notizie Tecnologia
Blast lancia il terzo evento di distribuzione Blast Gold, assegna 15 milioni di punti alle DApp
10 Maggio 2024
Espresso Systems collabora con Polygon Labs per sviluppare AggLayer per migliorare l'interoperabilità dei rollup
Affari Notizie Tecnologia
Espresso Systems collabora con Polygon Labs per sviluppare AggLayer per migliorare l'interoperabilità dei rollup
9 Maggio 2024
Protocollo infrastrutturale basato su ZKP ZKBase svela la roadmap e pianifica il lancio di Testnet a maggio
Notizie Tecnologia
Protocollo infrastrutturale basato su ZKP ZKBase svela la roadmap e pianifica il lancio di Testnet a maggio
9 Maggio 2024
LABORATORI DI CRITTOMERIA PTE. srl.