La startup d'IA MyShell lance l'algorithme OpenVoice pour un clonage vocal précis
En bref
La startup canadienne d'IA MyShell a annoncé avoir rendu open source son algorithme OpenVoice pour le clonage vocal instantané.
Respeecher, Voicemod et OnzeLabs – les trois startups ont une chose en commun : elles fournissent toutes des algorithmes et des logiciels d’IA pour créer des clones vocaux. Maintenant, un nouvel acteur, une startup canadienne de l'IA Mon Shell a annoncé avoir rendu open source son algorithme OpenVoice pour le clonage vocal instantané.
MyShell a partagé la mise à jour sur plateforme de médias sociaux X et a déclaré : « Clonez des voix avec une précision inégalée, avec un contrôle granulaire du ton, de l'émotion à l'accent, en passant par le rythme, les pauses et l'intonation, en utilisant simplement un petit clip audio. »
Dans le cadre de cette collaboration, des chercheurs du MIT, MyShell.ai et de l'Université Tsinghua ont dévoilé OpenVoice, qui peut reproduire la voix d'un locuteur et générer la parole dans plusieurs langues, en utilisant uniquement un bref extrait audio de la source originale. Il capture également le ton et la couleur uniques de la voix de l’orateur.
Selon l'entreprise, l'algorithme ajoute des éléments stylistiques cruciaux tels que l'émotion, l'accent, le rythme, les pauses et l'intonation. Ces éléments sont cruciaux pour donner un son réel à la parole et créer des conversations intéressantes. Cela permet d'éviter le son ennuyeux que vous obtenez souvent avec la synthèse vocale classique.
Comment fonctionne le modèle d'IA de clonage vocal
Dans un document de recherche, OpenVoice a partagé la méthodologie derrière son IA de clonage vocal. OpenVoice est composé de deux Modèles AI: un modèle de synthèse vocale (TTS) et un « convertisseur de tonalité ».
Le modèle peut gérer les paramètres de style et les langues, et a suivi une « formation utilisant 30,000 XNUMX phrases » de locuteurs anglais (avec accents américains et britanniques), chinois et japonais. La formation impliquait d'étiqueter les échantillons en fonction des émotions exprimées, et le modèle a appris l'intonation, le rythme et les pauses à partir de ces clips audio.
D’autre part, le modèle de convertisseur de tonalité a été formé sur un vaste ensemble de données de plus de 300,000 20,000 échantillons audio provenant de plus de XNUMX XNUMX haut-parleurs différents. Dans les deux cas, l’audio de la parole humaine a été converti en phonèmes – des sons spécifiques qui différencient les mots – et représenté à l’aide d’intégrations vectorielles.
Le modèle TTS, utilisant un « haut-parleur de base », se combine avec le son dérivé de l’audio enregistré par un utilisateur au cours du processus de formation. Ensemble, ces deux modèles peuvent reproduire la voix de l’utilisateur et modifier la couleur du ton – l’expression émotionnelle véhiculée dans le texte parlé.
La startup a été fondée en 2023. L'année dernière, MyShell a levé 5.6 millions de dollars en financement de démarrage, dirigé par INCE Capital, et a vu la participation d'investisseurs de premier plan tels que Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC et OP Crypto, entre autres.
Selon la société, le financement contribuera à l'avancement des technologies propriétaires. Modèles AI, la création d'un Creator Studio adapté aux applications natives d'IA et la création d'un écosystème de créateurs dynamique dans le domaine de la technologie blockchain.
Clause de non-responsabilité
En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.
A propos de l'auteur
Kumar est un journaliste technologique expérimenté spécialisé dans les intersections dynamiques de l'IA/ML, de la technologie marketing et des domaines émergents tels que la cryptographie, la blockchain et NFTs. Avec plus de 3 ans d'expérience dans l'industrie, Kumar a fait ses preuves dans l'élaboration de récits convaincants, la conduite d'entretiens perspicaces et la fourniture d'informations complètes. L'expertise de Kumar réside dans la production de contenu à fort impact, notamment des articles, des rapports et des publications de recherche pour des plateformes industrielles de premier plan. Doté d’un ensemble de compétences uniques combinant connaissances techniques et narration, Kumar excelle dans la communication de concepts technologiques complexes à des publics divers de manière claire et engageante.
Plus d'articlesKumar est un journaliste technologique expérimenté spécialisé dans les intersections dynamiques de l'IA/ML, de la technologie marketing et des domaines émergents tels que la cryptographie, la blockchain et NFTs. Avec plus de 3 ans d'expérience dans l'industrie, Kumar a fait ses preuves dans l'élaboration de récits convaincants, la conduite d'entretiens perspicaces et la fourniture d'informations complètes. L'expertise de Kumar réside dans la production de contenu à fort impact, notamment des articles, des rapports et des publications de recherche pour des plateformes industrielles de premier plan. Doté d’un ensemble de compétences uniques combinant connaissances techniques et narration, Kumar excelle dans la communication de concepts technologiques complexes à des publics divers de manière claire et engageante.