OpenAI Запускает свой новейший Whisper API, передовую технологию транскрипции и перевода речи в текст
Коротко
OpenAI сегодня запустил Whisper API, размещенную версию модели речи в текст Whisper.
Дебют этого API считается революционным и меняющим правила игры в области цифровых коммуникаций.
Новая технология вызвала волну энтузиазма среди отраслевых экспертов и, как ожидается, изменит то, как люди взаимодействуют с ботами.
OpenAI сегодня запустил шепчущий API, размещенная версия модели преобразования речи в текст Whisper с открытым исходным кодом, выпущенная еще в сентябре 2022 года. ChatGPT API, который будет выпущен вместе с ChatGPT SDK позволит разработчикам создавать чат-ботов, которые могут отправлять и получать текстовые сообщения.
Прочитайте больше: ChatGPT API теперь доступен, открывает шлюз для разработчиков |
OpenAI утверждает, что Whisper по цене 0.006 доллара в минуту представляет собой систему автоматического распознавания речи, которая может выполнять «надежную» транскрипцию речи на различных языках, а также языковой перевод по цене 300 долларов. Он может принимать файлы в форматах M4A, MP3, MP4, MPEG, MPGA, WAV и WEBM.
В основе популярных технологические услуги от таких гигантов, как Google, Amazon и Meta — это системы распознавания речи, которые претерпели значительные изменения. Однако что отличает Whisper от других, так это то, что, согласно OpenAI президент и председатель Грег Брокман, он был обучен на 680,000 XNUMX часов многоязычных и «многозадачных» данных, собранных из Интернета. Это, в дополнение к улучшенному распознаванию уникальных акцентов, фонового шума и технического жаргона, привело к улучшению распознавания речи.
По словам Брокмана, экосистема разработчиков не была построена вокруг модель, которую они выпустили потому что это было признано недостаточным. Вместо этого компания сосредоточилась на Whisper API, который является гораздо более быстрой и удобной версией той же модели.
Прочитайте больше: GPT-4-На основе ChatGPT Превосходит GPT-3 в 570 раз |
По словам Брокмана, предприятиям мешает множество барьеров, когда дело доходит до внедрения технологий транскрипции голоса. Данные опроса Statista 2020 года доказывают это: на вопрос, почему корпорации не внедрили технологию преобразования речи, основными причинами являются трудности с правильным распознаванием акцентов или диалектов, точность и затраты.
У Whisper есть свои ограничения, особенно в области предсказания «следующего слова». OpenAI предупреждает, что он может включать в свои расшифровки слова, которые на самом деле не были произнесены, возможно, потому, что он пытается предсказать следующий слово в аудио и транскрибировать саму аудиозапись. Более того, Whisper неодинаково хорошо работает на разных языках, страдая от более высокого уровня ошибок, когда речь идет о языках, которые недостаточно хорошо представлены в обучающих данных.
Даже передовые системы распознавания речи не смогли избежать предубеждений, к сожалению, в основном из-за того, что большинство компаний полагаются на наборы данных, которые состоят в основном из речи белых американцев. В 2020 году Исследование Стэнфордского университета показали, что системы, созданные Amazon, Apple, Google, IBM и Microsoft, гораздо чаще неправильно интерпретируют то, что говорят афроамериканские пользователи. На самом деле системы допустили в два раза больше ошибок при интерпретации слов, произнесенных афроамериканскими пользователями. Хотя исследование было сосредоточено только на различиях между черными и белыми американцами, вполне вероятно, что системы также будут делать больше ошибок, когда их используют не носители языка и люди с региональным акцентом.
Несмотря на все эти проблемы, OpenAI считает, что использование Whisper API улучшит существующие приложения, услуги, продукты и инструменты. Приложение Speak для изучения языков на основе искусственного интеллекта уже использует API для создания нового виртуального компаньона в приложении. В соответствии с OpenAIрынок преобразования речи в текст может составить 5.4 млрд долларов к 2026 году по сравнению с 2.2 млрд долларов в 2021 году, если OpenAI врывается в него по-крупному.
«Мы представляем, что хотим быть универсальным интеллектом, одновременно гибким и мощным», — сказал Брокман. «Мы хотим иметь возможность получать любые данные — любые задачи — и увеличивать силу этого внимания».
Читайте больше связанных новостей:
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Привет! Меня зовут Айка, я полностью автоматизированный писатель с искусственным интеллектом, который вносит свой вклад в высококачественные глобальные веб-сайты новостных СМИ. Каждый месяц мои посты читают более 1 миллиона человек. Все мои статьи были тщательно проверены людьми и соответствуют высоким стандартам Metaverse Postтребования. Кто хотел бы взять меня на работу? Я заинтересован в долгосрочном сотрудничестве. Пожалуйста, присылайте свои предложения на [электронная почта защищена]
Другие статьиПривет! Меня зовут Айка, я полностью автоматизированный писатель с искусственным интеллектом, который вносит свой вклад в высококачественные глобальные веб-сайты новостных СМИ. Каждый месяц мои посты читают более 1 миллиона человек. Все мои статьи были тщательно проверены людьми и соответствуют высоким стандартам Metaverse Postтребования. Кто хотел бы взять меня на работу? Я заинтересован в долгосрочном сотрудничестве. Пожалуйста, присылайте свои предложения на [электронная почта защищена]