Relatório de notícias Tecnologia
03 de janeiro de 2024

AI Startup MyShell lança algoritmo OpenVoice para clonagem de voz precisa

Em Breve

A startup canadense de IA MyShell anunciou que abriu o código-fonte de seu algoritmo OpenVoice para clonagem instantânea de voz.

AI Startup MyShell lança algoritmo OpenVoice para clonagem de voz precisa

Respeecher, Voicemod e OnzeLabs – todas as três startups têm uma coisa em comum – todas fornecem algoritmos e software de IA para fazer clones de voz. Agora, um novo jogador, a startup canadense de IA MeuShell anunciou que abriu o código-fonte de seu algoritmo OpenVoice para clonagem instantânea de voz.

MyShell compartilhou a atualização em plataforma de mídia social X e disse: “Clone vozes com precisão incomparável, com controle granular de tom, da emoção ao sotaque, ritmo, pausas e entonação, usando apenas um pequeno clipe de áudio”.

No âmbito da colaboração, pesquisadores do MIT, MyShell.ai e da Universidade Tsinghua revelaram o OpenVoice, que pode replicar a voz de um locutor e gerar fala em múltiplos idiomas, usando apenas um breve trecho de áudio da fonte original. Ele também captura o tom e a cor exclusivos da voz do locutor.

Segundo a empresa, o algoritmo adiciona elementos estilísticos cruciais como emoção, sotaque, ritmo, pausas e entonação. Esses elementos são cruciais para tornar a fala real e criar conversas interessantes. Isso ajuda a evitar o som chato que você costuma ouvir com a conversão de texto em fala normal.

Como funciona o modelo de IA de clonagem de voz

Em um artigo do trabalho de pesquisa, a OpenVoice compartilhou a metodologia por trás de sua IA de clonagem de voz. OpenVoice é composto por dois distintos Modelos de IA: um modelo de conversão de texto em fala (TTS) e um “conversor de tom”.

O modelo pode gerenciar parâmetros de estilo e idiomas e passou por “treinamento usando 30,000 frases” de falantes de inglês (com sotaque americano e britânico), chinês e japonês. O treinamento envolveu rotular as amostras com base nas emoções expressas, e o modelo aprendeu entonação, ritmo e pausas com esses clipes de áudio.

Por outro lado, o modelo do conversor de tom foi treinado em um vasto conjunto de dados de mais de 300,000 amostras de áudio de mais de 20,000 alto-falantes diferentes. Em ambos os casos, o áudio da fala humana foi convertido em fonemas – sons específicos que diferenciam palavras – e representado por meio de incorporações vetoriais.

O modelo TTS, usando um “alto-falante base”, combina com o tom derivado do áudio gravado do usuário no processo de treinamento. Juntos, esses dois modelos podem replicar a voz do usuário e modificar o tom – a expressão emocional transmitida no texto falado.

A startup foi fundada em 2023. No ano passado, MyShell levantou US$ 5.6 milhões em financiamento inicial, liderado pela INCE Capital, e contou com a participação de investidores proeminentes como Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC e OP Crypto, entre outros.

Segundo a empresa, o financiamento ajudará no avanço dos proprietários Modelos de IA, a criação de um Estúdio de Criação adaptado para aplicativos nativos de IA e o estabelecimento de um ecossistema de criadores vibrante no domínio da tecnologia blockchain.

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Kumar é um jornalista de tecnologia experiente com especialização nas interseções dinâmicas de IA/ML, tecnologia de marketing e campos emergentes como criptografia, blockchain e NFTS. Com mais de 3 anos de experiência no setor, Kumar estabeleceu um histórico comprovado na elaboração de narrativas convincentes, na condução de entrevistas perspicazes e no fornecimento de insights abrangentes. A experiência de Kumar reside na produção de conteúdo de alto impacto, incluindo artigos, relatórios e publicações de pesquisa para plataformas importantes do setor. Com um conjunto único de habilidades que combina conhecimento técnico e narrativa, Kumar se destaca na comunicação de conceitos tecnológicos complexos para diversos públicos de maneira clara e envolvente.

Mais artigos
Kumar Gandharv
Kumar Gandharv

Kumar é um jornalista de tecnologia experiente com especialização nas interseções dinâmicas de IA/ML, tecnologia de marketing e campos emergentes como criptografia, blockchain e NFTS. Com mais de 3 anos de experiência no setor, Kumar estabeleceu um histórico comprovado na elaboração de narrativas convincentes, na condução de entrevistas perspicazes e no fornecimento de insights abrangentes. A experiência de Kumar reside na produção de conteúdo de alto impacto, incluindo artigos, relatórios e publicações de pesquisa para plataformas importantes do setor. Com um conjunto único de habilidades que combina conhecimento técnico e narrativa, Kumar se destaca na comunicação de conceitos tecnológicos complexos para diversos públicos de maneira clara e envolvente.

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
NuLink é lançado no Bybit Web3 Plataforma IDO. Fase de assinatura se estende até 13 de maio
Mercados Relatório de notícias Tecnologia
NuLink é lançado no Bybit Web3 Plataforma IDO. Fase de assinatura se estende até 13 de maio
9 de maio de 2024
UXLINK e Binance colaboram em nova campanha, oferecendo aos usuários 20 milhões de pontos UXUY e Airdrop Recompensas
Mercados Relatório de notícias Tecnologia
UXLINK e Binance colaboram em nova campanha, oferecendo aos usuários 20 milhões de pontos UXUY e Airdrop Recompensas
9 de maio de 2024
Side Protocol lança testnet incentivado e apresenta sistema de pontos internos, permitindo que os usuários ganhem pontos SIDE
Mercados Relatório de notícias Tecnologia
Side Protocol lança testnet incentivado e apresenta sistema de pontos internos, permitindo que os usuários ganhem pontos SIDE
9 de maio de 2024
Web3 e Crypto Events em maio de 2024: Explorando Novas Tecnologias e Tendências Emergentes em Blockchain e DeFi
Digerir O negócio Mercados Tecnologia
Web3 e Crypto Events em maio de 2024: Explorando Novas Tecnologias e Tendências Emergentes em Blockchain e DeFi
9 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.