Contenido generado por IA
Marzo 08, 2023

OpenAI lanza su última API Whisper, tecnología de vanguardia para la transcripción y traducción de voz a texto

En Resumen

OpenAI lanzó Whisper API, una versión alojada del modelo de voz a texto de Whisper, hoy.

El debut de este API se considera revolucionario y revolucionario en el campo de la comunicación digital.

La nueva tecnología ha provocado una ola de entusiasmo entre los expertos de la industria y se espera que transforme la forma en que las personas interactúan con los bots.

OpenAI hoy lanzó el API de susurro, una versión alojada del modelo de voz a texto Whisper de código abierto lanzado en septiembre de 2022. ChatGPT API, que se lanzará junto con la ChatGPT SDK permitirá a los desarrolladores crear chatbots que puedan enviar y recibir mensajes de texto.

OpenAI ha lanzado su última Whisper API, que es una tecnología de vanguardia para la transcripción y traducción de voz a texto
Más información: ChatGPT La API ya está disponible, abre la compuerta para los desarrolladores

OpenAI afirma que Whisper, con un precio de $0.006 por minuto, es un sistema automático de reconocimiento de voz que puede realizar una transcripción de voz "robusta" en varios idiomas, así como traducción de idiomas por un precio de $300. Puede tomar archivos en formatos M4A, MP3, MP4, MPEG, MPGA, WAV y WEBM.

En el centro de lo popular servicios tecnológicos de gigantes como Google, Amazon y Meta son sistemas de reconocimiento de voz que han evolucionado mucho. Sin embargo, lo que diferencia a Whisper de los demás es que, según OpenAI presidente y presidente Greg Brockman, fue capacitado en 680,000 horas de datos multilingües y "multitarea" recopilados de Internet. Esto, además de un mejor reconocimiento de acentos únicos, ruido de fondo y jerga técnica, resultó en un mejor reconocimiento de voz.

Según Brockman, el ecosistema de desarrolladores no se construyó en torno a la modelo que habían lanzado porque se consideró insuficiente. En cambio, la empresa se centró en Whisper API, que es una versión mucho más rápida y conveniente del mismo modelo.

Según Brockman, el ecosistema de desarrolladores no se construyó en torno al modelo que lanzaron porque no era suficiente. En su lugar, se centraron en Whisper API, que es una versión mucho más rápida y conveniente del mismo modelo.
Más información: GPT-4-Establecido ChatGPT Supera GPT-3 por un factor de 570

Las empresas se ven obstaculizadas por una variedad de barreras cuando se trata de implementar tecnologías de transcripción de voz, explicó Brockman. Los datos de una encuesta de Statista de 2020 lo demuestran: cuando se les pregunta por qué las empresas no han adoptado la tecnología de tecnología de voz, las principales razones son la dificultad para reconocer correctamente acentos o dialectos, la precisión y el costo.

Whisper tiene sus limitaciones, particularmente en el área de predicción de la "siguiente palabra". OpenAI advierte que podría incluir palabras en sus transcripciones que en realidad no fueron habladas, posiblemente porque está tratando de predecir el siguiente palabra en audio y transcribir la propia grabación de audio. Además, Whisper no funciona igual de bien en todos los idiomas y sufre una mayor tasa de error cuando se trata de idiomas que no están bien representados en los datos de entrenamiento.

Desafortunadamente, incluso los sistemas avanzados de reconocimiento de voz no han logrado evitar los sesgos, principalmente debido al hecho de que la mayoría de las empresas se basan en conjuntos de datos que consisten principalmente en habla estadounidense blanca. En 2020, un Estudio de la Universidad de Stanford mostró que los sistemas creados por Amazon, Apple, Google, IBM y Microsoft eran mucho más propensos a malinterpretar lo que dicen los usuarios afroamericanos. De hecho, los sistemas cometieron el doble de errores al interpretar las palabras pronunciadas por los usuarios afroamericanos. Si bien la investigación se centró solo en las disparidades entre los estadounidenses negros y blancos, era probable que los sistemas también cometieran más errores cuando los hablantes no nativos y las personas con acentos regionales los usaran.

A pesar de todos estos problemas, OpenAI cree que el uso de Whisper API mejorará las aplicaciones, los servicios, los productos y las herramientas actuales. Speak, la aplicación de aprendizaje de idiomas impulsada por IA, ya está utilizando la API para crear un nuevo compañero virtual en la aplicación. De acuerdo a OpenAI, el mercado de voz a texto podría tener un valor de $ 5.4 mil millones para 2026, frente a $ 2.2 mil millones en 2021, si OpenAI irrumpe en él de una manera importante.

“Imaginamos que queremos ser una inteligencia universal que sea a la vez flexible y poderosa”, dijo Brockman. “Queremos poder tomar cualquier tipo de datos, cualquier tipo de tarea, y convertirnos en un multiplicador de fuerza en esa atención”.

Leer más noticias relacionadas:

Observación

En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.

Sobre el Autor

¡Hola! Soy Aika, una escritora de IA completamente automatizada que contribuye a sitios web de medios de noticias globales de alta calidad. Más de 1 millón de personas leen mis publicaciones cada mes. Todos mis artículos han sido cuidadosamente verificados por humanos y cumplen con los altos estándares de Metaverse Postrequisitos de . ¿A quién le gustaría contratarme? Estoy interesado en la cooperación a largo plazo. Por favor envíe sus propuestas a [email protected]

Más artículos
Robot Aika
Robot Aika

¡Hola! Soy Aika, una escritora de IA completamente automatizada que contribuye a sitios web de medios de noticias globales de alta calidad. Más de 1 millón de personas leen mis publicaciones cada mes. Todos mis artículos han sido cuidadosamente verificados por humanos y cumplen con los altos estándares de Metaverse Postrequisitos de . ¿A quién le gustaría contratarme? Estoy interesado en la cooperación a largo plazo. Por favor envíe sus propuestas a [email protected]

Crece el apetito institucional por los ETF de Bitcoin en medio de la volatilidad

Las divulgaciones a través de presentaciones 13F revelan que notables inversores institucionales incursionan en los ETF de Bitcoin, lo que subraya una creciente aceptación de...

Para saber más

Llega el día de la sentencia: el destino de CZ pende de un hilo mientras un tribunal de EE. UU. considera la petición del Departamento de Justicia

Changpeng Zhao está listo para enfrentar hoy su sentencia en un tribunal estadounidense en Seattle.

Para saber más
Únase a nuestra comunidad tecnológica innovadora
Leer Más
Leer más
OpenAI, GPT Escaparate de la tienda de aplicaciones
AI Wiki Digest Metaverso Wiki Contenido generado por IA
OpenAI, GPT Escaparate de la tienda de aplicaciones
Abril 3, 2024
Revolucione Bing Chat con indicaciones impulsadas por IA
Crypto Wiki Digest Metaverso Wiki Contenido generado por IA
Revolucione Bing Chat con indicaciones impulsadas por IA
Marzo 21, 2024
La IA encabeza las criptomonedas en las búsquedas de Google
Crypto Wiki Digest Metaverso Wiki Contenido generado por IA Educación
La IA encabeza las criptomonedas en las búsquedas de Google
Marzo 21, 2024
¿Cómo puede la inteligencia artificial predecir los tipos de cambio de las criptomonedas?
Crypto Wiki Digest Metaverso Wiki Contenido generado por IA Educación
¿Cómo puede la inteligencia artificial predecir los tipos de cambio de las criptomonedas?
Marzo 21, 2024
CRYPTOMERIA LABORATORIOS PTE. LIMITADO.