Rapport de nouvelles Technologie
03 janvier 2024

La startup d'IA MyShell lance l'algorithme OpenVoice pour un clonage vocal précis

En bref

La startup canadienne d'IA MyShell a annoncé avoir rendu open source son algorithme OpenVoice pour le clonage vocal instantané.

La startup d'IA MyShell lance l'algorithme OpenVoice pour un clonage vocal précis

Respeecher, Voicemod et OnzeLabs – les trois startups ont une chose en commun : elles fournissent toutes des algorithmes et des logiciels d’IA pour créer des clones vocaux. Maintenant, un nouvel acteur, une startup canadienne de l'IA Mon Shell a annoncé avoir rendu open source son algorithme OpenVoice pour le clonage vocal instantané.

MyShell a partagé la mise à jour sur plateforme de médias sociaux X et a déclaré : « Clonez des voix avec une précision inégalée, avec un contrôle granulaire du ton, de l'émotion à l'accent, en passant par le rythme, les pauses et l'intonation, en utilisant simplement un petit clip audio. »

Dans le cadre de cette collaboration, des chercheurs du MIT, MyShell.ai et de l'Université Tsinghua ont dévoilé OpenVoice, qui peut reproduire la voix d'un locuteur et générer la parole dans plusieurs langues, en utilisant uniquement un bref extrait audio de la source originale. Il capture également le ton et la couleur uniques de la voix de l’orateur.

Selon l'entreprise, l'algorithme ajoute des éléments stylistiques cruciaux tels que l'émotion, l'accent, le rythme, les pauses et l'intonation. Ces éléments sont cruciaux pour donner un son réel à la parole et créer des conversations intéressantes. Cela permet d'éviter le son ennuyeux que vous obtenez souvent avec la synthèse vocale classique.

Comment fonctionne le modèle d'IA de clonage vocal

Dans un document de recherche, OpenVoice a partagé la méthodologie derrière son IA de clonage vocal. OpenVoice est composé de deux Modèles AI: un modèle de synthèse vocale (TTS) et un « convertisseur de tonalité ».

Le modèle peut gérer les paramètres de style et les langues, et a suivi une « formation utilisant 30,000 XNUMX phrases » de locuteurs anglais (avec accents américains et britanniques), chinois et japonais. La formation impliquait d'étiqueter les échantillons en fonction des émotions exprimées, et le modèle a appris l'intonation, le rythme et les pauses à partir de ces clips audio.

D’autre part, le modèle de convertisseur de tonalité a été formé sur un vaste ensemble de données de plus de 300,000 20,000 échantillons audio provenant de plus de XNUMX XNUMX haut-parleurs différents. Dans les deux cas, l’audio de la parole humaine a été converti en phonèmes – des sons spécifiques qui différencient les mots – et représenté à l’aide d’intégrations vectorielles.

Le modèle TTS, utilisant un « haut-parleur de base », se combine avec le son dérivé de l’audio enregistré par un utilisateur au cours du processus de formation. Ensemble, ces deux modèles peuvent reproduire la voix de l’utilisateur et modifier la couleur du ton – l’expression émotionnelle véhiculée dans le texte parlé.

La startup a été fondée en 2023. L'année dernière, MyShell a levé 5.6 millions de dollars en financement de démarrage, dirigé par INCE Capital, et a vu la participation d'investisseurs de premier plan tels que Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC et OP Crypto, entre autres.

Selon la société, le financement contribuera à l'avancement des technologies propriétaires. Modèles AI, la création d'un Creator Studio adapté aux applications natives d'IA et la création d'un écosystème de créateurs dynamique dans le domaine de la technologie blockchain.

Clause de non-responsabilité 

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Kumar est un journaliste technologique expérimenté spécialisé dans les intersections dynamiques de l'IA/ML, de la technologie marketing et des domaines émergents tels que la cryptographie, la blockchain et NFTs. Avec plus de 3 ans d'expérience dans l'industrie, Kumar a fait ses preuves dans l'élaboration de récits convaincants, la conduite d'entretiens perspicaces et la fourniture d'informations complètes. L'expertise de Kumar réside dans la production de contenu à fort impact, notamment des articles, des rapports et des publications de recherche pour des plateformes industrielles de premier plan. Doté d’un ensemble de compétences uniques combinant connaissances techniques et narration, Kumar excelle dans la communication de concepts technologiques complexes à des publics divers de manière claire et engageante.

Plus d'articles
Kumar Gandhar
Kumar Gandhar

Kumar est un journaliste technologique expérimenté spécialisé dans les intersections dynamiques de l'IA/ML, de la technologie marketing et des domaines émergents tels que la cryptographie, la blockchain et NFTs. Avec plus de 3 ans d'expérience dans l'industrie, Kumar a fait ses preuves dans l'élaboration de récits convaincants, la conduite d'entretiens perspicaces et la fourniture d'informations complètes. L'expertise de Kumar réside dans la production de contenu à fort impact, notamment des articles, des rapports et des publications de recherche pour des plateformes industrielles de premier plan. Doté d’un ensemble de compétences uniques combinant connaissances techniques et narration, Kumar excelle dans la communication de concepts technologiques complexes à des publics divers de manière claire et engageante.

L’appétit institutionnel augmente pour les ETF Bitcoin dans un contexte de volatilité

Les divulgations via les dépôts 13F révèlent que des investisseurs institutionnels notables se sont lancés dans les ETF Bitcoin, soulignant une acceptation croissante de...

En savoir plus

Le jour de la détermination de la peine arrive : le sort de CZ est en jeu alors que le tribunal américain examine le plaidoyer du DOJ

Changpeng Zhao est sur le point d'être condamné aujourd'hui par un tribunal américain à Seattle.

En savoir plus
Rejoignez notre communauté technologique innovante
En savoir plus
En savoir plus
Crypto Exchange OKX répertorie Notcoin et s'apprête à introduire le trading au comptant avec la paire NOT-USDT le 16 mai
Marchés Rapport de nouvelles Technologie
Crypto Exchange OKX répertorie Notcoin et s'apprête à introduire le trading au comptant avec la paire NOT-USDT le 16 mai  
10 mai 2024
Blast lance le troisième événement de distribution Blast Gold et alloue 15 millions de points aux DApps
Marchés Rapport de nouvelles Technologie
Blast lance le troisième événement de distribution Blast Gold et alloue 15 millions de points aux DApps
10 mai 2024
Espresso Systems collabore avec Polygon Labs pour développer AggLayer afin d'améliorer l'interopérabilité des rollups
La Brochure Rapport de nouvelles Technologie
Espresso Systems collabore avec Polygon Labs pour développer AggLayer afin d'améliorer l'interopérabilité des rollups
9 mai 2024
Le protocole d'infrastructure alimenté par ZKP, ZKBase, dévoile sa feuille de route et prévoit le lancement de Testnet en mai
Rapport de nouvelles Technologie
Le protocole d'infrastructure alimenté par ZKP, ZKBase, dévoile sa feuille de route et prévoit le lancement de Testnet en mai
9 mai 2024
CRYPTOMERIA LABS PTE. LTD.