VALL-E X: a ferramenta de clonagem de voz de IA fraudulenta mais perigosa agora de código aberto
Em Breve
O modelo VALL-E X zero-shot TTS da Microsoft foi lançado em código aberto, permitindo aos usuários explorar síntese avançada de texto para fala e clonagem de voz.
O modelo suporta síntese de fala fluente em inglês, chinês e japonês, clonagem de voz zero-shot, controle de emoção de fala, síntese de fala interlingual zero-shot, controle de sotaque e adaptação de ambiente acústico.
VALL-E X funciona perfeitamente em CPU e GPU, com uma VRAM de GPU de 6 GB necessária para desempenho ideal.
Uma implementação de código aberto de O modelo VALL-E X zero-shot TTS da Microsoft foi revelado, permitindo que os usuários mergulhem nos domínios da síntese avançada de texto para fala e clonagem de voz. Este desenvolvimento surge como uma expansão Artigo de pesquisa inicial da Microsoft, que não possuía o código ou modelos pré-treinados necessários para a exploração prática. Com este lançamento, a comunidade tecnológica ganha acesso a uma ferramenta poderosa para recursos TTS de próxima geração.
Relacionado: O VALL-E da Microsoft parece ser o software fraudulento mais perigoso de todos os tempos |
VALL-E X é um modelo excepcional de conversão de texto em fala multilíngue introduzido pela Microsoft. Embora o artigo de pesquisa original fosse informativo, faltava aplicação prática devido ao ausência de código ou modelos pré-treinados. Para colmatar esta lacuna, a equipa dedicada assumiu o desafio de reproduzir os resultados e treinar o nosso próprio modelo VALL-E X. O resultado dos nossos esforços está agora disponível ao público, permitindo que um público mais amplo experimente o potencial transformador da tecnologia TTS de ponta.
VALL-E X é marcado por diversas funcionalidades inovadoras:
- TTS multilíngue: O modelo suporta síntese de fala fluente em três idiomas: inglês, chinês e japonês. Os usuários podem experimentar a síntese de fala natural e expressiva nesses idiomas.
- Clonagem de voz zero-shot: Ao gravar uma curta amostra de 3 a 10 segundos da voz de um locutor desconhecido, o VALL-E X tem a capacidade de gerar uma fala personalizada e de alta qualidade que reflete as características vocais exclusivas do locutor.
- Controle de emoções de fala: VALL-E X pode infundir emoções específicas na fala sintetizada, adicionando uma camada de expressividade à saída de áudio que se alinha com o prompt acústico fornecido.
- Síntese de fala interlingual Zero-shot: O modelo pode produzir fala personalizada em um idioma diferente, mantendo a fluência e o sotaque, expandindo os horizontes linguísticos dos falantes monolíngues.
- Controle de acento: VALL-E X oferece experimentação de sotaques, permitindo aos usuários criar conteúdo com diversos sotaques, como falar chinês com sotaque inglês e vice-versa.
- Adaptação do Ambiente Acústico: O modelo acomoda diversos prompts de áudio, adaptando-se ao ambiente acústico da entrada para proporcionar uma experiência de geração de fala natural e envolvente.
Além disso, o VALL-E X estende o seu suporte aos idiomas chinês e japonês, apresentando um desempenho excepcional nos três idiomas.
Relacionado: VALL-E: O novo modelo de conversão de texto em voz zero da Microsoft pode duplicar a voz de todos em três segundos |
Os recursos de clonagem de voz do VALL-E X facilitam a criação de comandos de voz usando a voz de uma pessoa, personagem ou a própria voz. Uma amostra de fala de 3 a 10 segundos, junto com a transcrição, é tudo o que é necessário para criar um comando de voz distinto. Uma interface gráfica amigável simplifica ainda mais as interações com o VALL-E X, tornando a clonagem de voz e a síntese de fala multilíngue uma tarefa acessível.
Notavelmente, VALL-E X opera perfeitamente em CPU e GPU (pytorch 2.0+, CUDA 11.7 e CUDA 12.0). O design eficiente do modelo garante que uma GPU VRAM de 6 GB seja suficiente para operação sem descarregamento.
Em comparação com o Modelo de casca, VALL-E X oferece diversas vantagens:
- Mais leve, ocupando apenas 3/4 do espaço.
- Eficiência aprimorada com aumento de velocidade de 4x.
- Qualidade superior nos idiomas chinês e japonês.
- Síntese de fala multilíngue sem sotaques estrangeiros.
- Recursos fáceis de clonagem de voz.
Em relação aos requisitos de VRAM, uma GPU VRAM de 6 GB atende aos critérios para executar o VALL-E X de maneira eficaz. No entanto, para geração de texto mais longa, a duração total do prompt de áudio e do áudio gerado deve permanecer abaixo de 22 segundos para garantir um desempenho ideal.
O licenciamento de código aberto do VALL-E X, regido pela licença MIT, significa uma nova era de acessibilidade e exploração no domínio da síntese multilíngue de conversão de texto em fala e clonagem de voz.
Leia mais sobre IA:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.