Sussurro V3 por OpenAI Torna-se código aberto, expandindo o reconhecimento de voz em vários idiomas
Em Breve
OpenAI anunciou o lançamento de código aberto do WHISPER V3, um modelo de última geração para reconhecimento de voz em vários idiomas.
Empresa de pesquisa de inteligência artificial (IA) OpenAI, deu um salto significativo no domínio do reconhecimento de fala ao abrir o código-fonte de seu modelo de última geração Sussurro grande-v3, durante o evento do Dia do Desenvolvedor.
Esta última iteração do modelo Whisper demonstra uma notável capacidade de compreender e transcrever voz em uma infinidade de idiomas, ampliando sua aplicabilidade para além dos modelos do passado centrados no inglês.
O Whisper large-v3 prospera em diversas condições, lidando habilmente com várias entradas de idioma. De acordo com o OpenAI, enquanto modelos direcionados a aplicativos em inglês como tiny.en
e base.en
apresentar desempenho superior. No entanto, a eficácia do Whisper large-v3 está sujeita a flutuações dependendo do idioma que está sendo transcrito.
Originalmente focado no inglês no seu lançamento em setembro passado, o modelo expandiu suas capacidades com a versão 2 em dezembro para incluir suporte para uma variedade de idiomas, embora não tenha especificado quais.
Whisper large-v3 disponível sob uma licença permissiva em GitHub, permite que os usuários transcrevam várias formas de conteúdo com a melhor precisão da categoria. Seu recurso exclusivo de carimbo de data/hora agrega valor significativo, revolucionando potencialmente a geração de legendas em plataformas de vídeo como YouTube.
OpenAIAvanço no reconhecimento de fala multilíngue
O Whisper large-v3 processa o áudio segmentando-o primeiro em clipes de 30 segundos e depois executando-o por meio de um sistema complexo que inclui um codificador e um decodificador para gerar a saída.
Esses componentes funcionam em uníssono para prever a transcrição textual das palavras faladas. Um dos destaques técnicos do Whisper large-v3 é o recurso de identificação de idioma, que não apenas transcreve a fala multilíngue, mas também a traduz para o inglês.
Embora os planos iniciais sugerissem integração com o popular ChatGPT para facilitar a interação direta de voz com o chatbot, OpenAI optou por conceder ao público acesso direto ao Whisper large-v3. É importante notar que o público-alvo atual do Whisper são principalmente pesquisadores, não o público em geral.
OpenAIO compromisso da empresa com o avanço do processamento de voz robusto é evidente em sua decisão de abrir o código-fonte do Whisper large-v3. A organização ressalta seu objetivo de fomentar o desenvolvimento de aplicações práticas e futuras pesquisas nesta área.
OpenAI aprimorou sua ferramenta de IA com um vasto conjunto de dados com 680,000 horas de dados monitorados de perto coletados da Internet, incluindo uma parcela substancial de áudio em idiomas diferentes do inglês. Esta etapa visa fomentar a inovação e ampliar o escopo da tecnologia de reconhecimento de voz em todo o mundo.
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Nik é um talentoso analista e escritor da Metaverse Post, especializada em fornecer insights de ponta no mundo acelerado da tecnologia, com ênfase particular em AI/ML, XR, VR, análise on-chain e desenvolvimento de blockchain. Seus artigos envolvem e informam um público diversificado, ajudando-o a ficar à frente da curva tecnológica. Mestre em Economia e Gestão, Nik possui uma sólida compreensão das nuances do mundo dos negócios e sua intersecção com as tecnologias emergentes.
Mais artigosNik é um talentoso analista e escritor da Metaverse Post, especializada em fornecer insights de ponta no mundo acelerado da tecnologia, com ênfase particular em AI/ML, XR, VR, análise on-chain e desenvolvimento de blockchain. Seus artigos envolvem e informam um público diversificado, ajudando-o a ficar à frente da curva tecnológica. Mestre em Economia e Gestão, Nik possui uma sólida compreensão das nuances do mundo dos negócios e sua intersecção com as tecnologias emergentes.