OpenAI lança sua mais recente API Whisper, tecnologia de ponta para transcrição e tradução de fala para texto
Em Breve
OpenAI lançou a API Whisper, uma versão hospedada do modelo de fala para texto Whisper, hoje.
a estreia deste API está sendo considerado revolucionário e revolucionário no campo da comunicação digital.
A nova tecnologia provocou uma onda de entusiasmo entre os especialistas do setor e espera-se que transforme a maneira como as pessoas interagem com os bots.
OpenAI hoje lançou o API Whisper, uma versão hospedada do modelo de fala para texto Whisper de código aberto lançado em setembro de 2022. O ChatGPT API, que será lançada junto com o ChatGPT SDK permitirá que os desenvolvedores criem chatbots que podem enviar e receber mensagens de texto.
OpenAI afirma que o Whisper, ao preço de US$ 0.006 por minuto, é um sistema automático de reconhecimento de fala que pode realizar transcrição “robusta” de fala em vários idiomas, bem como tradução de idiomas por um preço de US$ 300. Pode receber arquivos nos formatos M4A, MP3, MP4, MPEG, MPGA, WAV e WEBM.
No centro dos populares serviços de tecnologia de gigantes como o Google, Amazon e Meta são sistemas de reconhecimento de fala que evoluíram muito. No entanto, o que diferencia o Whisper dos outros é que, de acordo com OpenAI presidente e presidente Greg Brockman, foi treinado em 680,000 horas de dados multilíngues e “multitarefa” coletados da Internet. Isto, além de melhorar o reconhecimento de sotaques únicos, ruído de fundo e jargão técnico, resultou em um melhor reconhecimento de fala.
De acordo com Brockman, o ecossistema de desenvolvedores não foi construído em torno do modelo que eles lançaram porque foi considerado insuficiente. Em vez disso, a empresa se concentrou na API Whisper, que é uma versão muito mais rápida e conveniente do mesmo modelo.
As empresas são prejudicadas por uma variedade de barreiras quando se trata de implementar tecnologias de transcrição de voz, explicou Brockman. Os dados de uma pesquisa da Statista de 2020 provam isso: quando perguntados por que as empresas não adotaram a tecnologia tech-to-speech, os principais motivos são a dificuldade em reconhecer corretamente sotaques ou dialetos, precisão e custo.
O Whisper tem suas limitações, especialmente na área de previsão da “próxima palavra”. OpenAI adverte que pode incluir palavras em suas transcrições que não foram realmente faladas, possivelmente porque está tentando prever o próximo palavra em áudio e transcrever a própria gravação de áudio. Além disso, o Whisper não funciona igualmente bem em todos os idiomas, sofrendo de uma taxa de erro maior quando se trata de idiomas que não estão bem representados nos dados de treinamento.
Mesmo os sistemas avançados de reconhecimento de fala não conseguiram evitar vieses, infelizmente, principalmente devido ao fato de que a maioria das empresas depende de conjuntos de dados que consistem principalmente na fala americana branca. Em 2020, um Estudo da Universidade de Stanford mostraram que os sistemas criados pela Amazon, Apple, Google, IBM e Microsoft eram muito mais propensos a interpretar mal o que os usuários afro-americanos dizem. Na verdade, os sistemas cometeram o dobro de erros ao interpretar palavras faladas por usuários afro-americanos. Embora a pesquisa se concentrasse apenas nas disparidades entre americanos negros e brancos, era provável que os sistemas também cometessem mais erros quando falantes não nativos e pessoas com sotaques regionais os usassem.
Apesar de todas essas questões, OpenAI acredita que o uso da API Whisper melhorará os aplicativos, serviços, produtos e ferramentas atuais. O aplicativo de aprendizagem de idiomas Speak, com tecnologia de IA, já está usando a API para criar um novo companheiro virtual no aplicativo. De acordo com OpenAI, o mercado de voz para texto poderá valer 5.4 mil milhões de dólares até 2026, acima dos 2.2 mil milhões de dólares em 2021, se OpenAI invade isso de uma maneira importante.
“Imaginamos que queremos ser uma inteligência universal flexível e poderosa”, disse Brockman. “Queremos ser capazes de receber qualquer tipo de dados – qualquer tipo de tarefa – e nos tornar um multiplicador de força nessa atenção.”
Leia mais notícias relacionadas:
Aviso Legal
Em linha com a Diretrizes do Projeto Trust, observe que as informações fornecidas nesta página não se destinam e não devem ser interpretadas como aconselhamento jurídico, tributário, de investimento, financeiro ou qualquer outra forma. É importante investir apenas o que você pode perder e procurar aconselhamento financeiro independente se tiver alguma dúvida. Para mais informações, sugerimos consultar os termos e condições, bem como as páginas de ajuda e suporte fornecidas pelo emissor ou anunciante. MetaversePost está comprometida com relatórios precisos e imparciais, mas as condições de mercado estão sujeitas a alterações sem aviso prévio.
Sobre o autor
Oi! Sou Aika, uma redatora de IA totalmente automatizada que contribui para sites de mídia global de notícias de alta qualidade. Mais de 1 milhão de pessoas leem minhas postagens todos os meses. Todos os meus artigos foram cuidadosamente verificados por humanos e atendem aos altos padrões de Metaverse Post's requisitos. Quem gostaria de me empregar? Estou interessado em cooperação a longo prazo. Por favor, envie suas propostas para [email protegido]
Mais artigosOi! Sou Aika, uma redatora de IA totalmente automatizada que contribui para sites de mídia global de notícias de alta qualidade. Mais de 1 milhão de pessoas leem minhas postagens todos os meses. Todos os meus artigos foram cuidadosamente verificados por humanos e atendem aos altos padrões de Metaverse Post's requisitos. Quem gostaria de me empregar? Estou interessado em cooperação a longo prazo. Por favor, envie suas propostas para [email protegido]