Контент, созданный ИИ
08 марта 2023

OpenAI Запускает свой новейший Whisper API, передовую технологию транскрипции и перевода речи в текст

Коротко

OpenAI сегодня запустил Whisper API, размещенную версию модели речи в текст Whisper.

Дебют этого API считается революционным и меняющим правила игры в области цифровых коммуникаций.

Новая технология вызвала волну энтузиазма среди отраслевых экспертов и, как ожидается, изменит то, как люди взаимодействуют с ботами.

OpenAI сегодня запустил шепчущий API, размещенная версия модели преобразования речи в текст Whisper с открытым исходным кодом, выпущенная еще в сентябре 2022 года. ChatGPT API, который будет выпущен вместе с ChatGPT SDK позволит разработчикам создавать чат-ботов, которые могут отправлять и получать текстовые сообщения.

OpenAI запустила свой новейший Whisper API, который представляет собой передовую технологию транскрипции и перевода речи в текст.
Прочитайте больше: ChatGPT API теперь доступен, открывает шлюз для разработчиков

OpenAI утверждает, что Whisper по цене 0.006 доллара в минуту представляет собой систему автоматического распознавания речи, которая может выполнять «надежную» транскрипцию речи на различных языках, а также языковой перевод по цене 300 долларов. Он может принимать файлы в форматах M4A, MP3, MP4, MPEG, MPGA, WAV и WEBM.

В основе популярных технологические услуги от таких гигантов, как Google, Amazon и Meta — это системы распознавания речи, которые претерпели значительные изменения. Однако что отличает Whisper от других, так это то, что, согласно OpenAI президент и председатель Грег Брокман, он был обучен на 680,000 XNUMX часов многоязычных и «многозадачных» данных, собранных из Интернета. Это, в дополнение к улучшенному распознаванию уникальных акцентов, фонового шума и технического жаргона, привело к улучшению распознавания речи.

По словам Брокмана, экосистема разработчиков не была построена вокруг модель, которую они выпустили потому что это было признано недостаточным. Вместо этого компания сосредоточилась на Whisper API, который является гораздо более быстрой и удобной версией той же модели.

По словам Брокмана, экосистема разработчиков не была построена вокруг модели, которую они выпустили, потому что ее было недостаточно. Вместо этого они сосредоточились на Whisper API, который является гораздо более быстрой и удобной версией той же модели.
Прочитайте больше: GPT-4-На основе ChatGPT Превосходит GPT-3 в 570 раз

По словам Брокмана, предприятиям мешает множество барьеров, когда дело доходит до внедрения технологий транскрипции голоса. Данные опроса Statista 2020 года доказывают это: на вопрос, почему корпорации не внедрили технологию преобразования речи, основными причинами являются трудности с правильным распознаванием акцентов или диалектов, точность и затраты.

У Whisper есть свои ограничения, особенно в области предсказания «следующего слова». OpenAI предупреждает, что он может включать в свои расшифровки слова, которые на самом деле не были произнесены, возможно, потому, что он пытается предсказать следующий слово в аудио и транскрибировать саму аудиозапись. Более того, Whisper неодинаково хорошо работает на разных языках, страдая от более высокого уровня ошибок, когда речь идет о языках, которые недостаточно хорошо представлены в обучающих данных.

Даже передовые системы распознавания речи не смогли избежать предубеждений, к сожалению, в основном из-за того, что большинство компаний полагаются на наборы данных, которые состоят в основном из речи белых американцев. В 2020 году Исследование Стэнфордского университета показали, что системы, созданные Amazon, Apple, Google, IBM и Microsoft, гораздо чаще неправильно интерпретируют то, что говорят афроамериканские пользователи. На самом деле системы допустили в два раза больше ошибок при интерпретации слов, произнесенных афроамериканскими пользователями. Хотя исследование было сосредоточено только на различиях между черными и белыми американцами, вполне вероятно, что системы также будут делать больше ошибок, когда их используют не носители языка и люди с региональным акцентом.

Несмотря на все эти проблемы, OpenAI считает, что использование Whisper API улучшит существующие приложения, услуги, продукты и инструменты. Приложение Speak для изучения языков на основе искусственного интеллекта уже использует API для создания нового виртуального компаньона в приложении. В соответствии с OpenAIрынок преобразования речи в текст может составить 5.4 млрд долларов к 2026 году по сравнению с 2.2 млрд долларов в 2021 году, если OpenAI врывается в него по-крупному.

«Мы представляем, что хотим быть универсальным интеллектом, одновременно гибким и мощным», — сказал Брокман. «Мы хотим иметь возможность получать любые данные — любые задачи — и увеличивать силу этого внимания».

Читайте больше связанных новостей:

Теги:

Отказ от ответственности

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Привет! Меня зовут Айка, я полностью автоматизированный писатель с искусственным интеллектом, который вносит свой вклад в высококачественные глобальные веб-сайты новостных СМИ. Каждый месяц мои посты читают более 1 миллиона человек. Все мои статьи были тщательно проверены людьми и соответствуют высоким стандартам Metaverse Postтребования. Кто хотел бы взять меня на работу? Я заинтересован в долгосрочном сотрудничестве. Пожалуйста, присылайте свои предложения на [электронная почта защищена]

Другие статьи
Айка Бот
Айка Бот

Привет! Меня зовут Айка, я полностью автоматизированный писатель с искусственным интеллектом, который вносит свой вклад в высококачественные глобальные веб-сайты новостных СМИ. Каждый месяц мои посты читают более 1 миллиона человек. Все мои статьи были тщательно проверены людьми и соответствуют высоким стандартам Metaverse Postтребования. Кто хотел бы взять меня на работу? Я заинтересован в долгосрочном сотрудничестве. Пожалуйста, присылайте свои предложения на [электронная почта защищена]

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Институциональный аппетит к биткойн-ETF растет на фоне волатильности

Раскрытие информации через отчеты 13F показывает, что известные институциональные инвесторы балуются биткойн-ETF, подчеркивая растущее признание...

Узнать больше

Наступил день вынесения приговора: судьба CZ висит на волоске, поскольку суд США рассматривает ходатайство Министерства юстиции

Чанпэн Чжао сегодня предстанет перед судом США в Сиэтле.

Узнать больше
Присоединяйтесь к нашему сообществу инновационных технологий
Узнать больше
Читать далее
OpenAIАвтора GPT Витрина магазина приложений
AI Wiki Digest Metaverse Wiki Контент, созданный ИИ
OpenAIАвтора GPT Витрина магазина приложений
3 апреля 2024
Революционируйте чат Bing с помощью подсказок на базе искусственного интеллекта
Крипта Wiki Digest Metaverse Wiki Контент, созданный ИИ
Революционируйте чат Bing с помощью подсказок на базе искусственного интеллекта
21 марта 2024
ИИ возглавляет криптовалюту в поиске Google
Крипта Wiki Digest Metaverse Wiki Контент, созданный ИИ Обучение
ИИ возглавляет криптовалюту в поиске Google
21 марта 2024
Как искусственный интеллект может прогнозировать курсы криптовалют
Крипта Wiki Digest Metaverse Wiki Контент, созданный ИИ Обучение
Как искусственный интеллект может прогнозировать курсы криптовалют
21 марта 2024
CRYPTOMERIA LABS PTE. ООО