Relatório de notícias Tecnologia
26 de Junho de 2023

Google apresenta AudioPaLM, um poderoso modelo de linguagem AI para geração de fala

Em Breve

AudioPaLM é um poderoso modelo de linguagem desenvolvido por Google que combina modelos baseados em texto e fala para processamento contínuo de fala e texto.

Ele preserva as informações paralinguísticas e supera os sistemas existentes em tarefas de tradução de fala.

AudioPaLM pode traduzir idiomas com sotaque e realizar transferências de voz para tradução de fala para fala.

O Google revelou um modelo de linguagem chamado ÁudioPaLM, que combina modelos de linguagem baseados em texto e em fala para processar e gerar fala e texto perfeitamente. Unindo as capacidades de PaLM-2 e ÁudioLM, AudioPaLM oferece uma arquitetura multimodal unificada que abre uma ampla gama de aplicativos, incluindo reconhecimento de fala e tradução de fala para fala.

Google apresenta AudioPaLM, um poderoso modelo de linguagem para geração de fala
Crédito: Metaverse Post (mpost.io)

Um recurso notável do AudioPaLM é sua capacidade de preservar informações paralinguísticas, como identidade e entonação do locutor, graças à influência do AudioLM. Ao mesmo tempo, ele aproveita o conhecimento linguístico encontrado em modelos de linguagem baseados em texto como o PaLM-2. Ao inicializar o AudioPaLM com os pesos de um modelo de linguagem grande somente de texto, o modelo se destaca no processamento de fala, aproveitando os extensos dados de treinamento de texto usados ​​no pré-treinamento.

As notáveis ​​capacidades do AudioPaLM foram demonstradas através de vários experimentos. Ele superou os sistemas existentes em tarefas de tradução de fala e mostra a capacidade de executar zero-shot tradução de voz para texto para idiomas não encontrados durante o treinamento.

Além disso, o AudioPaLM exibe recursos de modelos de linguagem de áudio transferindo vozes entre idiomas com base em comandos falados curtos.

Google fez exemplos de recursos do AudioPaLM disponíveis para exploração. A capacidade do modelo de traduzir idiomas com sotaques distintos, como italiano e alemão, tem intrigado pesquisadores e usuários. Além disso, sua proficiência em realizar transferências de voz para tradução de fala para fala o diferencia das linhas de base existentes, conforme confirmado por métricas automáticas e avaliadores humanos.

O modelo é muito bom em traduzir um idioma de áudio para áudio em outro idioma, preservando a voz e as emoções de uma pessoa. Curiosamente, ao traduzir alguns idiomas como italiano e alemão, o modelo tem um sotaque perceptível, e ao traduzir outros, por exemplo, francês, fala com um sotaque americano perfeito.

O modelo AudioPaLM com exemplos de tradução de fala para fala e reconhecimento automático de fala.

Leia mais sobre IA:

Aviso Legal

Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.

Sobre o autor

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Mais artigos
Damir Yalalov
Damir Yalalov

Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet. 

Hot Stories
Junte-se ao nosso boletim informativo.
Últimas notícias

Cresce apetite institucional por ETFs de Bitcoin em meio à volatilidade

As divulgações por meio de registros 13F revelam investidores institucionais notáveis ​​​​que se envolvem em ETFs Bitcoin, ressaltando uma aceitação crescente de ...

Saber Mais

Chega o dia da sentença: o destino de CZ está em equilíbrio enquanto o tribunal dos EUA considera o apelo do DOJ

Changpeng Zhao está prestes a ser condenado hoje em um tribunal dos EUA em Seattle.

Saber Mais
Junte-se à nossa comunidade tecnológica inovadora
Saiba Mais
Saiba mais
Protocolo de infraestrutura baseado em ZKP ZKBase revela roteiro e planeja lançamento de testnet em maio
Relatório de notícias Tecnologia
Protocolo de infraestrutura baseado em ZKP ZKBase revela roteiro e planeja lançamento de testnet em maio
9 de maio de 2024
BLOCKCHANCE e CONF3RENCE unem-se para o maior da Alemanha Web3 Conferência em Dortmund
O negócio Mercados Software Histórias e resenhas Tecnologia
BLOCKCHANCE e CONF3RENCE unem-se para o maior da Alemanha Web3 Conferência em Dortmund
9 de maio de 2024
NuLink é lançado no Bybit Web3 Plataforma IDO. Fase de assinatura se estende até 13 de maio
Mercados Relatório de notícias Tecnologia
NuLink é lançado no Bybit Web3 Plataforma IDO. Fase de assinatura se estende até 13 de maio
9 de maio de 2024
UXLINK e Binance colaboram em nova campanha, oferecendo aos usuários 20 milhões de pontos UXUY e Airdrop Recompensas
Mercados Relatório de notícias Tecnologia
UXLINK e Binance colaboram em nova campanha, oferecendo aos usuários 20 milhões de pontos UXUY e Airdrop Recompensas
9 de maio de 2024
CRYPTOMERIA LABS PTE. LTDA.