L'avvio di AI MyShell rilascia l'algoritmo OpenVoice per una clonazione vocale precisa
In Breve
La startup canadese di intelligenza artificiale MyShell ha annunciato di aver reso open source il suo algoritmo OpenVoice per la clonazione vocale istantanea.
Respeecher, Voicemod e UndiciLabs – tutte e tre le startup hanno una cosa in comune: forniscono algoritmi e software di intelligenza artificiale per creare cloni vocali. Ora, un nuovo giocatore, la startup canadese di intelligenza artificiale MyShell ha annunciato di aver reso open source il suo algoritmo OpenVoice per la clonazione vocale istantanea.
MyShell ha condiviso l'aggiornamento su piattaforma di social media X e ha detto: "Clona voci con una precisione senza pari, con un controllo granulare del tono, dall'emozione all'accento, al ritmo, alle pause e all'intonazione, utilizzando solo una piccola clip audio".
Nell'ambito della collaborazione, i ricercatori del MIT, MyShell.ai e dell'Università Tsinghua hanno presentato OpenVoice, che può replicare la voce di chi parla e generare parlato in diverse lingue, utilizzando solo un breve frammento audio dalla fonte originale. Cattura anche il tono e il colore unici della voce di chi parla.
Secondo l’azienda, l’algoritmo aggiunge elementi stilistici cruciali come emozione, accento, ritmo, pause e intonazione. Questi elementi sono cruciali per rendere reale il parlato e creare conversazioni interessanti. Aiuta a evitare il suono noioso che spesso si ottiene con la normale sintesi vocale.
Come funziona il modello di intelligenza artificiale per la clonazione della voce
In un documento di ricerca, OpenVoice ha condiviso la metodologia alla base della sua intelligenza artificiale per la clonazione della voce. OpenVoice è composto da due distinti Modelli AI: un modello di sintesi vocale (TTS) e un "convertitore di toni".
Il modello può gestire parametri di stile e lingue ed è stato sottoposto a un "addestramento utilizzando 30,000 frasi" da persone di lingua inglese (con accento americano e britannico), cinese e giapponese. La formazione prevedeva l'etichettatura dei campioni in base alle emozioni espresse e il modello ha imparato l'intonazione, il ritmo e le pause da queste clip audio.
D’altra parte, il modello del convertitore di tono è stato addestrato su un vasto set di dati di oltre 300,000 campioni audio provenienti da più di 20,000 altoparlanti diversi. In entrambi i casi, l’audio del parlato umano è stato convertito in fonemi – suoni specifici che differenziano le parole – e rappresentato utilizzando incorporamenti di vettori.
Il modello TTS, che utilizza un “altoparlante di base”, si combina con il tono derivato dall’audio registrato di un utente nel processo di formazione. Insieme, questi due modelli possono replicare la voce dell’utente e modificare il colore del tono, ovvero l’espressione emotiva trasmessa nel testo parlato.
La startup è stata fondata nel 2023. L'anno scorso, MyShell ha raccolto 5.6 milioni di dollari in finanziamenti iniziali, guidati da INCE Capital, e ha visto la partecipazione di importanti investitori come Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC e OP Crypto, tra gli altri.
Secondo la società, il finanziamento aiuterà nel progresso della proprietà Modelli AI, la creazione di un Creator Studio su misura per le app native dell'intelligenza artificiale e la creazione di un vivace ecosistema di creatori nel regno della tecnologia blockchain.
Negazione di responsabilità
In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.
Circa l'autore
Kumar è un giornalista tecnologico esperto con una specializzazione nelle intersezioni dinamiche di AI/ML, tecnologia di marketing e campi emergenti come criptovaluta, blockchain e NFTS. Con oltre 3 anni di esperienza nel settore, Kumar ha stabilito una comprovata esperienza nella creazione di narrazioni avvincenti, nella conduzione di interviste approfondite e nella fornitura di approfondimenti completi. L'esperienza di Kumar risiede nella produzione di contenuti di grande impatto, inclusi articoli, rapporti e pubblicazioni di ricerca per importanti piattaforme di settore. Con un insieme di competenze uniche che combina conoscenze tecniche e narrazione, Kumar eccelle nel comunicare concetti tecnologici complessi a un pubblico diversificato in modo chiaro e coinvolgente.
Altri articoliKumar è un giornalista tecnologico esperto con una specializzazione nelle intersezioni dinamiche di AI/ML, tecnologia di marketing e campi emergenti come criptovaluta, blockchain e NFTS. Con oltre 3 anni di esperienza nel settore, Kumar ha stabilito una comprovata esperienza nella creazione di narrazioni avvincenti, nella conduzione di interviste approfondite e nella fornitura di approfondimenti completi. L'esperienza di Kumar risiede nella produzione di contenuti di grande impatto, inclusi articoli, rapporti e pubblicazioni di ricerca per importanti piattaforme di settore. Con un insieme di competenze uniche che combina conoscenze tecniche e narrazione, Kumar eccelle nel comunicare concetti tecnologici complessi a un pubblico diversificato in modo chiaro e coinvolgente.