Шепот V3 от OpenAI Переходит на открытый исходный код, расширяя возможности распознавания голоса на разных языках
Коротко
OpenAI объявила о выпуске с открытым исходным кодом WHISPER V3, современной модели распознавания голоса на нескольких языках.
Исследовательская компания по искусственному интеллекту (ИИ) OpenAI, совершила значительный шаг в области распознавания речи, открыв исходный код своей современной модели. Шепот большой-v3, во время мероприятия «День разработчика».
Эта последняя версия модели Whisper демонстрирует замечательную способность понимать и расшифровывать речь на множестве языков, расширяя ее применимость за пределы англоориентированных моделей прошлого.
Whisper big-v3 хорошо себя чувствует в самых разных условиях, умело обрабатывая различные языковые вводы. По OpenAI, а модели, ориентированные на англоязычные приложения, такие как tiny.en
и base.en
показать превосходную производительность. Однако эффективность Whisper big-v3 может колебаться в зависимости от транскрибируемого языка.
Первоначально ориентированная на английский язык после ее запуска в сентябре прошлого года, модель расширила свои возможности с версией 2 в декабре, включив поддержку ряда языков, хотя и не уточнила, какие именно.
Whisper big-v3 доступен по разрешительной лицензии на GitHub, позволяет пользователям расшифровывать различные формы контента с лучшей в своем классе точностью. Его уникальная функция временных меток добавляет значительную ценность, потенциально революционизируя создание субтитров на таких видеоплатформах, как YouTube.
OpenAIПрорыв в области многоязычного распознавания речи
Whisper big-v3 обрабатывает звук, сначала сегментируя его на 30-секундные клипы, а затем пропуская его через сложную систему, включающую кодировщик и декодер для генерации выходного сигнала.
Эти компоненты работают в унисон, предсказывая текстовую транскрипцию произнесенных слов. Одной из технических особенностей Whisper big-v3 является функция идентификации языка, которая не только расшифровывает многоязычную речь, но и переводит ее на английский язык.
Хотя первоначальные планы предполагали интеграцию с популярной ChatGPT для облегчения прямого голосового взаимодействия с чат-ботом, OpenAI решил предоставить общественности прямой доступ к Whisper big-v3. Стоит отметить, что нынешняя целевая аудитория Whisper — это прежде всего исследователи, а не широкая общественность.
OpenAIПриверженность компании развитию надежной обработки речи очевидна в их решении открыть исходный код Whisper big-v3. Организация подчеркивает свою цель способствовать развитию практического применения и дальнейшим исследованиям в этой области.
OpenAI усовершенствовала свой инструмент искусственного интеллекта, используя обширный набор данных, включающий 680,000 XNUMX часов тщательно отслеживаемых данных, собранных из Интернета, включая значительную долю неанглоязычных аудиозаписей. Этот шаг направлен на стимулирование инноваций и расширение сферы применения технологий распознавания голоса во всем мире.
Отказ от ответственности
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Ник — опытный аналитик и писатель в Metaverse Post, специализирующаяся на предоставлении передовых знаний о быстро меняющемся мире технологий с особым акцентом на AI / ML, XR, VR, аналитику в цепочке и разработку блокчейна. Его статьи вовлекают и информируют разнообразную аудиторию, помогая ей опережать технологические достижения. Обладая степенью магистра экономики и менеджмента, Ник хорошо разбирается в нюансах делового мира и его взаимосвязи с новыми технологиями.
Другие статьиНик — опытный аналитик и писатель в Metaverse Post, специализирующаяся на предоставлении передовых знаний о быстро меняющемся мире технологий с особым акцентом на AI / ML, XR, VR, аналитику в цепочке и разработку блокчейна. Его статьи вовлекают и информируют разнообразную аудиторию, помогая ей опережать технологические достижения. Обладая степенью магистра экономики и менеджмента, Ник хорошо разбирается в нюансах делового мира и его взаимосвязи с новыми технологиями.