SoundStorm: Google revela ferramenta de inteligência artificial capaz de replicar voz em tempo real
Em Breve
O Google apresentou o SoundStorm, um modelo de ponta para geração de áudio eficiente e não autorregressiva.
Ele emprega atenção bidirecional e decodificação paralela baseada em confiança para gerar áudio de alta qualidade enquanto reduz significativamente o tempo de geração.
Ele também tem a capacidade de sintetizar diálogos naturais.
O Google apresentou seu mais recente avanço na tecnologia de inteligência artificial com Tempestade Sonora, um modelo de ponta para geração de áudio eficiente e não autorregressiva. Com a capacidade de sintetizar diálogos com diferentes vozes, o SoundStorm abre novas possibilidades para aplicações como geração de conteúdo de áudio a partir de texto escrito e criação de podcasts realistas.
Ao contrário de seu antecessor ÁudioLM, o SoundStorm emprega uma nova arquitetura que gera áudio em blocos de 30 segundos, aumentando a eficiência. Utilizando atenção bidirecional e decodificação paralela baseada em confiança, o modelo produz áudio de alta qualidade enquanto reduz significativamente o tempo de geração. No hardware TPU-v4 do Google, o SoundStorm pode gerar 30 segundos de áudio em apenas 0.5 segundo, marcando uma melhoria substancial na velocidade.
O treinamento do SoundStorm foi realizado usando um enorme conjunto de dados de 100,000 horas de diálogo, garantindo uma compreensão robusta dos padrões de linguagem falada. O modelo atinge consistência impressionante em voz e condições acústicas, mantendo a qualidade de áudio alcançada pelo AudioLM. Essa inovação torna o SoundStorm duas ordens de grandeza mais rápido que seu antecessor, demonstrando seu potencial para geração de áudio escalável.
Um dos principais recursos do SoundStorm é sua capacidade de sintetizar diálogos naturais, aproveitando o estágio de modelagem de texto para semântica do SPEAR-TTS. Ao fornecer transcrições com turnos de falantes e comandos de voz curtos, os usuários podem controlar o conteúdo falado e as vozes dos falantes. Durante os testes, o SoundStorm demonstrou a capacidade de sintetizar segmentos de diálogo de 30 segundos em apenas 2 segundos em um único TPU-v4, mostrando sua eficiência e versatilidade.
Comando de voz
Diálogo Sintetizado
Quando comparado às linhas de base padrão, o áudio gerado pelo SoundStorm é de qualidade equivalente ao AudioLM e demonstra consistência e integridade acústica superiores. Notavelmente, quando solicitado a fornecer uma amostra de fala, o modelo preserva a voz do locutor com incrível precisão, aumentando consideravelmente sua capacidade de gerar diálogos realistas.
Embora as capacidades do SoundStorm sejam excelentes, é fundamental reconhecer e resolver possíveis preocupações éticas. Os dados de treinamento do algoritmo podem introduzir distorções relacionadas a sotaques e recursos de voz. A capacidade de imitar vozes pode ser abusada por a representação ou para contornar a identificação biométrica. O Google destaca a importância de implementar proteções para evitar esse tipo de abuso e garantindo a detectabilidade de áudio criado através de classificadores dedicados.
Os princípios éticos de IA do Google orientam seus esforços contínuos para lidar com possíveis riscos e restrições. A organização percebe a necessidade de fazer um estudo completo dos dados de treinamento e as implicações para os resultados do modelo. Eles também planejam investigar abordagens adicionais, como marca d'água de áudio, para detectar fala sintetizada para fazer uso ético dessa tecnologia.
- O SoundStorm é um grande passo à frente na produção de áudio com tecnologia AI, fornecendo representações de áudio derivadas de codec de áudio neural eficientes e de alta qualidade. O Google espera que as necessidades mais baixas de memória e processamento do SoundStorm tornem a pesquisa de geração de áudio mais acessível a uma comunidade mais ampla. O Google continua dedicado a preservar práticas responsáveis de IA e garantir o uso seguro e responsável do SoundStorm e avanços comparáveis no campo à medida que a tecnologia evolui.
- VALE, o mais recente modelo de conversão de texto em fala (TTS) da Microsoft, é um grande avanço no aprimoramento de como esses sistemas geram voz. VALL-E é um modelo TTS baseado em transformadores que podem gerar fala em qualquer voz depois de ouvir apenas uma amostra de três segundos dessa voz. Este é um grande avanço em relação aos modelos anteriores, que exigiam um período de treinamento significativamente mais longo para desenvolver uma nova voz.
Leia mais sobre IA:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.