Meta revela caixa de voz, ferramenta de IA generativa de conversão de texto em fala
Em Breve
Voicebox, a mais recente inovação da Meta, é um revolucionário conversor de texto para fala ferramenta de IA generativa que transforma texto escrito em discurso realista.
Com capacidades comparáveis a modelos de renome como ChatGPT e Dall-E, o Voicebox pode executar várias tarefas de geração de fala, como edição de conteúdo, amostragem, conversão de estilo, remoção de ruído, síntese de texto para fala e transferência de estilo multilíngue.
O Voicebox ainda não está disponível publicamente.
Caixa de voz é o avanço da Meta em IA de fala generativa, que transforma texto em fala realista e expressiva. A ferramenta AI, que funciona de forma semelhante ao ChatGPT ou Dall-E, é um modelo avançado de IA capaz de realizar tarefas de geração de fala, como edição de conteúdo, amostragem e conversão de estilo, mesmo sem treinamento específico, graças ao aprendizado no contexto.
Ele se diferencia de outros modelos de conversão de texto em fala, destacando-se em várias tarefas, como remoção de ruído, síntese de texto em fala e transferência de estilo multilíngue, ultrapassando os limites da geração de fala sintética. O Voicebox também supera os modelos atuais em velocidade, operando a uma taxa 20 vezes mais rápida.
O Voicebox passou por um treinamento extensivo usando um conjunto de dados composto por mais de 50,000 horas de áudio não filtrado. O modelo de IA foi treinado usando a técnica inovadora de “Flow Matching” da Meta, uma alternativa versátil aos métodos de aprendizado baseados em difusão empregados por outros modelos generativos.
O conjunto de dados de treinamento da Meta inclui fala gravada e transcrições de audiolivros de domínio público em vários idiomas, como inglês, francês, espanhol, alemão, polonês e português.
De acordo com Mark Zuckerberg, o Voicebox é “o primeiro modelo de fala de IA generativo que pode realizar tarefas para as quais não foi especificamente treinado”.
No futuro, o Voicebox e modelos semelhantes de AI podem fornecer vozes com som natural para assistentes virtuais e personagens não-jogadores no metaverso. Eles também podem permitir que pessoas com deficiência visual ouçam mensagens escritas em vozes familiares por meio de IA e oferecer aos criadores ferramentas fáceis para edição de faixas de áudio em vídeos.
Voicebox e os perigos dos deepfakes
No entanto, o Voicebox pode apresentar alguns desafios éticos e sociais, especialmente no contexto de deepfakes. Deepfakes, criados por modelos de IA, são mídias sintéticas que manipulam a voz de uma pessoa, muitas vezes de forma maliciosa. O Voicebox poderia criar deepfakes convincentes que personificam a voz de alguém ou os fazem dizer coisas que nunca disseram. Isso pode ter sérias implicações para privacidade, segurança e confiança.
O presidente da Microsoft, Brad Smith preocupações levantadas mês passado sobre os danos causados pelos deepfakes. Ele enfatizou a necessidade de mecanismos para diferenciar entre material genuíno e gerado por IA, principalmente em casos de intenção maliciosa. Ele pediu medidas de responsabilidade e segurança para manter o controle humano sobre a infraestrutura crítica governada por sistemas de IA. Além disso, ele propôs um sistema em que os desenvolvedores monitoram o uso e fornecem transparência para identificar vídeos manipulados, semelhante a uma abordagem KYC.
A Meta afirma estar ciente dos danos potenciais que o Voicebox pode causar e que a empresa está trabalhando em uma maneira eficaz de distinguir entre fala autêntica e áudio gerado pelo Voicebox. Embora o Voicebox ainda esteja em desenvolvimento e atualmente não esteja acessível ao público, Meta reconhece o potencial riscos associados à tecnologia avançada de IA.
Leia mais:
- VALL-E: O novo modelo de conversão de texto em voz zero da Microsoft pode duplicar a voz de todos em três segundos
- Kendrick Lamar acaba de lançar um videoclipe usando tecnologia deepfake
- Os 7 principais geradores de voz AI e clonagem de voz para conversão de texto em fala
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Agne é uma jornalista que cobre as últimas tendências e desenvolvimentos no metaverso, IA e Web3 indústrias para o Metaverse Post. Sua paixão por contar histórias a levou a realizar inúmeras entrevistas com especialistas nessas áreas, sempre buscando descobrir histórias emocionantes e envolventes. Agne é bacharel em literatura e possui ampla experiência em redação sobre uma ampla variedade de tópicos, incluindo viagens, arte e cultura. Ela também foi voluntária como editora da organização de direitos dos animais, onde ajudou a aumentar a conscientização sobre questões de bem-estar animal. Entre em contato com ela [email protegido].
Mais artigosAgne é uma jornalista que cobre as últimas tendências e desenvolvimentos no metaverso, IA e Web3 indústrias para o Metaverse Post. Sua paixão por contar histórias a levou a realizar inúmeras entrevistas com especialistas nessas áreas, sempre buscando descobrir histórias emocionantes e envolventes. Agne é bacharel em literatura e possui ampla experiência em redação sobre uma ampla variedade de tópicos, incluindo viagens, arte e cultura. Ela também foi voluntária como editora da organização de direitos dos animais, onde ajudou a aumentar a conscientização sobre questões de bem-estar animal. Entre em contato com ela [email protegido].