Google apresenta AudioPaLM, um poderoso modelo de linguagem AI para geração de fala
Em Breve
AudioPaLM é um poderoso modelo de linguagem desenvolvido por Google que combina modelos baseados em texto e fala para processamento contínuo de fala e texto.
Ele preserva as informações paralinguísticas e supera os sistemas existentes em tarefas de tradução de fala.
AudioPaLM pode traduzir idiomas com sotaque e realizar transferências de voz para tradução de fala para fala.
O Google revelou um modelo de linguagem chamado ÁudioPaLM, que combina modelos de linguagem baseados em texto e em fala para processar e gerar fala e texto perfeitamente. Unindo as capacidades de PaLM-2 e ÁudioLM, AudioPaLM oferece uma arquitetura multimodal unificada que abre uma ampla gama de aplicativos, incluindo reconhecimento de fala e tradução de fala para fala.
Um recurso notável do AudioPaLM é sua capacidade de preservar informações paralinguísticas, como identidade e entonação do locutor, graças à influência do AudioLM. Ao mesmo tempo, ele aproveita o conhecimento linguístico encontrado em modelos de linguagem baseados em texto como o PaLM-2. Ao inicializar o AudioPaLM com os pesos de um modelo de linguagem grande somente de texto, o modelo se destaca no processamento de fala, aproveitando os extensos dados de treinamento de texto usados no pré-treinamento.
As notáveis capacidades do AudioPaLM foram demonstradas através de vários experimentos. Ele superou os sistemas existentes em tarefas de tradução de fala e mostra a capacidade de executar zero-shot tradução de voz para texto para idiomas não encontrados durante o treinamento.
Além disso, o AudioPaLM exibe recursos de modelos de linguagem de áudio transferindo vozes entre idiomas com base em comandos falados curtos.
Google fez exemplos de recursos do AudioPaLM disponíveis para exploração. A capacidade do modelo de traduzir idiomas com sotaques distintos, como italiano e alemão, tem intrigado pesquisadores e usuários. Além disso, sua proficiência em realizar transferências de voz para tradução de fala para fala o diferencia das linhas de base existentes, conforme confirmado por métricas automáticas e avaliadores humanos.
O modelo é muito bom em traduzir um idioma de áudio para áudio em outro idioma, preservando a voz e as emoções de uma pessoa. Curiosamente, ao traduzir alguns idiomas como italiano e alemão, o modelo tem um sotaque perceptível, e ao traduzir outros, por exemplo, francês, fala com um sotaque americano perfeito.
Leia mais sobre IA:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Damir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.
Mais artigosDamir é o líder de equipe, gerente de produto e editor da Metaverse Post, abordando tópicos como AI/ML, AGI, LLMs, Metaverse e Web3-Campos relacionados. Seus artigos atraem um grande público de mais de um milhão de usuários todos os meses. Ele parece ser um especialista com 10 anos de experiência em SEO e marketing digital. Damir foi mencionado em Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto e outras publicações. Ele viaja entre os Emirados Árabes Unidos, Turquia, Rússia e CEI como um nômade digital. Damir formou-se em física, o que ele acredita ter lhe dado as habilidades de pensamento crítico necessárias para ter sucesso no cenário em constante mudança da internet.