Relatório de notícias SMW Equipar
30 de maio de 2023

SoundStorm: Google revela ferramenta de inteligência artificial capaz de replicar voz em tempo real

Em Breve

O Google apresentou o SoundStorm, um modelo de ponta para geração de áudio eficiente e não autorregressiva.

Ele emprega atenção bidirecional e decodificação paralela baseada em confiança para gerar áudio de alta qualidade enquanto reduz significativamente o tempo de geração.

Ele também tem a capacidade de sintetizar diálogos naturais.

O Google apresentou seu mais recente avanço na tecnologia de inteligência artificial com Tempestade Sonora, um modelo de ponta para geração de áudio eficiente e não autorregressiva. Com a capacidade de sintetizar diálogos com diferentes vozes, o SoundStorm abre novas possibilidades para aplicações como geração de conteúdo de áudio a partir de texto escrito e criação de podcasts realistas.

SoundStorm: Google revela ferramenta de inteligência artificial capaz de replicar voz em tempo real
@Midjourney

Ao contrário de seu antecessor ÁudioLM, o SoundStorm emprega uma nova arquitetura que gera áudio em blocos de 30 segundos, aumentando a eficiência. Utilizando atenção bidirecional e decodificação paralela baseada em confiança, o modelo produz áudio de alta qualidade enquanto reduz significativamente o tempo de geração. No hardware TPU-v4 do Google, o SoundStorm pode gerar 30 segundos de áudio em apenas 0.5 segundo, marcando uma melhoria substancial na velocidade.

O treinamento do SoundStorm foi realizado usando um enorme conjunto de dados de 100,000 horas de diálogo, garantindo uma compreensão robusta dos padrões de linguagem falada. O modelo atinge consistência impressionante em voz e condições acústicas, mantendo a qualidade de áudio alcançada pelo AudioLM. Essa inovação torna o SoundStorm duas ordens de grandeza mais rápido que seu antecessor, demonstrando seu potencial para geração de áudio escalável.

Um dos principais recursos do SoundStorm é sua capacidade de sintetizar diálogos naturais, aproveitando o estágio de modelagem de texto para semântica do SPEAR-TTS. Ao fornecer transcrições com turnos de falantes e comandos de voz curtos, os usuários podem controlar o conteúdo falado e as vozes dos falantes. Durante os testes, o SoundStorm demonstrou a capacidade de sintetizar segmentos de diálogo de 30 segundos em apenas 2 segundos em um único TPU-v4, mostrando sua eficiência e versatilidade.

Comando de voz

Diálogo Sintetizado

Quando comparado às linhas de base padrão, o áudio gerado pelo SoundStorm é de qualidade equivalente ao AudioLM e demonstra consistência e integridade acústica superiores. Notavelmente, quando solicitado a fornecer uma amostra de fala, o modelo preserva a voz do locutor com incrível precisão, aumentando consideravelmente sua capacidade de gerar diálogos realistas.

Embora as capacidades do SoundStorm sejam excelentes, é fundamental reconhecer e resolver possíveis preocupações éticas. Os dados de treinamento do algoritmo podem introduzir distorções relacionadas a sotaques e recursos de voz. A capacidade de imitar vozes pode ser abusada por a representação ou para contornar a identificação biométrica. O Google destaca a importância de implementar proteções para evitar esse tipo de abuso e garantindo a detectabilidade de áudio criado através de classificadores dedicados.

Os princípios éticos de IA do Google orientam seus esforços contínuos para lidar com possíveis riscos e restrições. A organização percebe a necessidade de fazer um estudo completo dos dados de treinamento e as implicações para os resultados do modelo. Eles também planejam investigar abordagens adicionais, como marca d'água de áudio, para detectar fala sintetizada para fazer uso ético dessa tecnologia.

  • O SoundStorm é um grande passo à frente na produção de áudio com tecnologia AI, fornecendo representações de áudio derivadas de codec de áudio neural eficientes e de alta qualidade. O Google espera que as necessidades mais baixas de memória e processamento do SoundStorm tornem a pesquisa de geração de áudio mais acessível a uma comunidade mais ampla. O Google continua dedicado a preservar práticas responsáveis ​​de IA e garantir o uso seguro e responsável do SoundStorm e avanços comparáveis ​​no campo à medida que a tecnologia evolui.
  • VALE, o mais recente modelo de conversão de texto em fala (TTS) da Microsoft, é um grande avanço no aprimoramento de como esses sistemas geram voz. VALL-E é um modelo TTS baseado em transformadores que podem gerar fala em qualquer voz depois de ouvir apenas uma amostra de três segundos dessa voz. Este é um grande avanço em relação aos modelos anteriores, que exigiam um período de treinamento significativamente mais longo para desenvolver uma nova voz.

Leia mais sobre IA:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais

Fundadores da Samourai Wallet acusados ​​de facilitar US$ 2 bilhões em negócios Darknet

A apreensão dos fundadores da Samourai Wallet representa um revés notável para a indústria, ressaltando a persistência ...

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
Pantera Capital investe na blockchain TON e expressa confiança no potencial do Telegram para ampliar a acessibilidade à criptografia
O negócio Relatório de notícias Equipar
Pantera Capital investe na blockchain TON e expressa confiança no potencial do Telegram para ampliar a acessibilidade à criptografia
2 de maio de 2024
Mitosis levanta US$ 7 milhões em financiamento do Amber Group e Foresight Ventures para avançar seu protocolo modular de liquidez
O negócio Relatório de notícias Equipar
Mitosis levanta US$ 7 milhões em financiamento do Amber Group e Foresight Ventures para avançar seu protocolo modular de liquidez
2 de maio de 2024
Galxe faz parceria com Jambo para expandir a acessibilidade global para Web3
O negócio Relatório de notícias Equipar
Galxe faz parceria com Jambo para expandir a acessibilidade global para Web3
2 de maio de 2024
Med-Gemini do Google preparado para dar uma vantagem inicial GPT-4 Com seu desempenho superior em saúde
AI Wiki Novidades Software Equipar
Med-Gemini do Google preparado para dar uma vantagem inicial GPT-4 Com seu desempenho superior em saúde
2 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.