Relatório de notícias Equipar
30 de agosto de 2023

VALL-E X: a ferramenta de clonagem de voz de IA fraudulenta mais perigosa agora de código aberto

Em Breve

O modelo VALL-E X zero-shot TTS da Microsoft foi lançado em código aberto, permitindo aos usuários explorar síntese avançada de texto para fala e clonagem de voz.

O modelo suporta síntese de fala fluente em inglês, chinês e japonês, clonagem de voz zero-shot, controle de emoção de fala, síntese de fala interlingual zero-shot, controle de sotaque e adaptação de ambiente acústico.

VALL-E X funciona perfeitamente em CPU e GPU, com uma VRAM de GPU de 6 GB necessária para desempenho ideal.

Uma implementação de código aberto de O modelo VALL-E X zero-shot TTS da Microsoft foi revelado, permitindo que os usuários mergulhem nos domínios da síntese avançada de texto para fala e clonagem de voz. Este desenvolvimento surge como uma expansão Artigo de pesquisa inicial da Microsoft, que não possuía o código ou modelos pré-treinados necessários para a exploração prática. Com este lançamento, a comunidade tecnológica ganha acesso a uma ferramenta poderosa para recursos TTS de próxima geração.

VALL-E X: a ferramenta de clonagem de voz de IA fraudulenta mais perigosa agora de código aberto
VALL-E X: um avanço na síntese multilíngue de conversão de texto em fala e clonagem de voz
Relacionado: O VALL-E da Microsoft parece ser o software fraudulento mais perigoso de todos os tempos

VALL-E X é um modelo excepcional de conversão de texto em fala multilíngue introduzido pela Microsoft. Embora o artigo de pesquisa original fosse informativo, faltava aplicação prática devido ao ausência de código ou modelos pré-treinados. Para colmatar esta lacuna, a equipa dedicada assumiu o desafio de reproduzir os resultados e treinar o nosso próprio modelo VALL-E X. O resultado dos nossos esforços está agora disponível ao público, permitindo que um público mais amplo experimente o potencial transformador da tecnologia TTS de ponta.

VALL-E X é marcado por diversas funcionalidades inovadoras:

  • TTS multilíngue: O modelo suporta síntese de fala fluente em três idiomas: inglês, chinês e japonês. Os usuários podem experimentar a síntese de fala natural e expressiva nesses idiomas.
  • Clonagem de voz zero-shot: Ao gravar uma curta amostra de 3 a 10 segundos da voz de um locutor desconhecido, o VALL-E X tem a capacidade de gerar uma fala personalizada e de alta qualidade que reflete as características vocais exclusivas do locutor.
  • Controle de emoções de fala: VALL-E X pode infundir emoções específicas na fala sintetizada, adicionando uma camada de expressividade à saída de áudio que se alinha com o prompt acústico fornecido.
  • Síntese de fala interlingual Zero-shot: O modelo pode produzir fala personalizada em um idioma diferente, mantendo a fluência e o sotaque, expandindo os horizontes linguísticos dos falantes monolíngues.
  • Controle de acento: VALL-E X oferece experimentação de sotaques, permitindo aos usuários criar conteúdo com diversos sotaques, como falar chinês com sotaque inglês e vice-versa.
  • Adaptação do Ambiente Acústico: O modelo acomoda diversos prompts de áudio, adaptando-se ao ambiente acústico da entrada para proporcionar uma experiência de geração de fala natural e envolvente.

Além disso, o VALL-E X estende o seu suporte aos idiomas chinês e japonês, apresentando um desempenho excepcional nos três idiomas.

Isto faz do VALL-E X uma ferramenta de suporte linguístico versátil e eficiente para usuários em diversos ambientes linguísticos.
Relacionado: VALL-E: O novo modelo de conversão de texto em voz zero da Microsoft pode duplicar a voz de todos em três segundos

Os recursos de clonagem de voz do VALL-E X facilitam a criação de comandos de voz usando a voz de uma pessoa, personagem ou a própria voz. Uma amostra de fala de 3 a 10 segundos, junto com a transcrição, é tudo o que é necessário para criar um comando de voz distinto. Uma interface gráfica amigável simplifica ainda mais as interações com o VALL-E X, tornando a clonagem de voz e a síntese de fala multilíngue uma tarefa acessível.

Notavelmente, VALL-E X opera perfeitamente em CPU e GPU (pytorch 2.0+, CUDA 11.7 e CUDA 12.0). O design eficiente do modelo garante que uma GPU VRAM de 6 GB seja suficiente para operação sem descarregamento.

Em comparação com o Modelo de casca, VALL-E X oferece diversas vantagens:

  • Mais leve, ocupando apenas 3/4 do espaço.
  • Eficiência aprimorada com aumento de velocidade de 4x.
  • Qualidade superior nos idiomas chinês e japonês.
  • Síntese de fala multilíngue sem sotaques estrangeiros.
  • Recursos fáceis de clonagem de voz.

Em relação aos requisitos de VRAM, uma GPU VRAM de 6 GB atende aos critérios para executar o VALL-E X de maneira eficaz. No entanto, para geração de texto mais longa, a duração total do prompt de áudio e do áudio gerado deve permanecer abaixo de 22 segundos para garantir um desempenho ideal.

O licenciamento de código aberto do VALL-E X, regido pela licença MIT, significa uma nova era de acessibilidade e exploração no domínio da síntese multilíngue de conversão de texto em fala e clonagem de voz.

Leia mais sobre IA:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
Morph apresenta sua rede de teste Holesky com integração zkEVM otimista, mecanismo de ponte e recursos de rede de sequenciador descentralizado
Relatório de notícias Equipar
Morph apresenta sua rede de teste Holesky com integração zkEVM otimista, mecanismo de ponte e recursos de rede de sequenciador descentralizado
6 de maio de 2024
Robinhood Crypto recebe aviso de poços da Comissão de Valores Mobiliários sobre supostas violações de títulos
Mercados Relatório de notícias Equipar
Robinhood Crypto recebe aviso de poços da Comissão de Valores Mobiliários sobre supostas violações de títulos
6 de maio de 2024
QuickSwap é implantado na rede principal X Layer e expande a rede Polygon CDK com o lançamento do Citadel
Relatório de notícias Equipar
QuickSwap é implantado na rede principal X Layer e expande a rede Polygon CDK com o lançamento do Citadel 
6 de maio de 2024
Camada 2 Network Linea inicia reivindicação de token ZERO da ZeroLend Airdrop Usuários e investidores
Mercados Relatório de notícias Equipar
Camada 2 Network Linea inicia reivindicação de token ZERO da ZeroLend Airdrop Usuários e investidores
6 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.