Новостной репортаж Технология
08 мая 2026

Новое OpenAI Аудиомодели обеспечивают работу голосовых помощников в реальном времени с многоязычным переводом и потоковой обработкой данных.

Коротко

OpenAI освобожден GPTМодели Realtime-2, Translate и Whisper расширяют возможности искусственного интеллекта для обработки голоса в реальном времени, добавляя функции логического мышления, перевода и транскрипции для сложных приложений разговорного взаимодействия.

Новое OpenAI Аудиомодели обеспечивают работу голосовых помощников в реальном времени с многоязычным переводом и потоковой обработкой данных.

OpenAI Компания анонсировала новый набор аудиомоделей в рамках своей экосистемы API, что знаменует собой расширение возможностей голосового управления в реальном времени для разработчиков и приложений, использующих искусственный интеллект. В релиз входят: GPT-Realtime-2, GPT-Перевод в реальном времени и GPT— Realtime-Whisper, каждый из которых разработан для обеспечения более продвинутого, отзывчивого и контекстно-зависимого голосового взаимодействия в различных сценариях использования.

GPT-Realtime-2 позиционируется как самая передовая голосовая модель компании на сегодняшний день, представляющая собой GPT-5— Классификация логических рассуждений для обработки аудиоразговоров в реальном времени. Модель разработана для обработки сложных запросов пользователей, поддержания контекстной непрерывности и поддержки многоэтапного логического мышления при взаимодействии в реальном времени. Она предназначена для приложений, где голосовые агенты должны не только быстро реагировать, но и интерпретировать намерения, управлять прерываниями и выполнять задачи с помощью интегрированных инструментов.

Наряду с этим, GPTФункция Realtime-Translate обеспечивает перевод речи в реальном времени с более чем 70 входных языков на 13 выходных языков. Система разработана таким образом, чтобы поддерживать плавность разговора, сохраняя при этом смысл и синхронизацию, позволяя говорящим общаться на разных языках без заметных задержек. Эта функция предназначена для глобальной поддержки клиентов, образования, путешествий и трансграничных коммуникационных услуг.

Третья модель, GPTRealtime-Whisper специализируется на потоковой транскрипции речи в текст. Он обеспечивает непрерывную транскрипцию с низкой задержкой по мере того, как пользователи говорят, что позволяет создавать субтитры в реальном времени, документировать происходящее в режиме реального времени и немедленно обрабатывать устную речь. Модель разработана для сред, где требуется быстрое преобразование речи в текст, таких как совещания, медиа-трансляции и корпоративные рабочие процессы.

OpenAI Объединенный релиз был описан как шаг к созданию голосовых интерфейсов, выходящих за рамки базовых систем «команда-ответ». Вместо простого распознавания речи и генерации ответов, модели призваны поддерживать непрерывное рассуждение, перевод, транскрипцию и выполнение действий в рамках единого диалогового потока. Цель состоит в том, чтобы создать голосовые системы, которые смогут функционировать больше как интерактивные помощники, способные выполнять задачи, сохраняя при этом естественный диалог.

GPTRealtime2 совершенствует архитектуру голосового ИИ с помощью систем преобразования голоса в действие и расширенных контекстных окон.

Компания выделила несколько новых моделей проектирования, ставших возможными благодаря этой технологии. К ним относятся системы преобразования голоса в действие, где пользователи могут описывать задачи, которые выполняются с помощью автоматизированного анализа и интеграции инструментов; приложения для преобразования систем в речь, где программное обеспечение генерирует голосовые подсказки на основе контекстных данных; и системы голосового перевода, которые позволяют осуществлять многоязычную коммуникацию между говорящими в режиме реального времени.

GPTВ Realtime-2 реализованы дополнительные архитектурные улучшения для использования в производственной среде. К ним относятся увеличенные контекстные окна до 128 000 токенов, улучшенное поведение при восстановлении после прерываний или ошибок, параллельное выполнение инструментов с прозрачной обратной связью и более управляемая регулировка тона в зависимости от контекста разговора. Разработчики также могут точно настраивать уровни рассуждений, чтобы сбалансировать скорость и сложность в зависимости от потребностей приложения.

Указанные показатели производительности OpenAI Система демонстрирует улучшенные результаты в задачах логического мышления на основе аудиоданных и выполнения инструкций по сравнению с предыдущими версиями своих моделей реального времени. Также она показывает более эффективную обработку терминологии, специфичной для данной области, и более стабильное поведение в многоходовых диалогах.

В релиз также включены механизмы безопасности, в том числе мониторинг в реальном времени и классификация контента в активных сессиях, а также элементы управления на уровне разработчиков для дополнительной защиты. Модели доступны через API реального времени и предназначены для развертывания в корпоративных, потребительских и ориентированных на разработчиков приложениях, а ценообразование основано на показателях использования обработки звука.

Вступление к GPTRealtime-2 и сопутствующие модели отражают более широкий сдвиг в сторону голосовых вычислительных систем, способных рассуждать, переводить и расшифровывать информацию в реальном времени, с целью сделать голосовое взаимодействие с программным обеспечением более функциональным, адаптивным и удобным в использовании.

Условия использования

В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.

Об авторе

Алиса, преданный журналист MPostспециализируется на криптовалютах, искусственном интеллекте, инвестициях и обширной сфере... Web3. Внимательно следя за новыми тенденциями и технологиями, она всесторонне освещает события, информируя и вовлекая читателей в постоянно развивающуюся среду цифровых финансов.

Другие статьи
Алиса Дэвидсон
Алиса Дэвидсон

Алиса, преданный журналист MPostспециализируется на криптовалютах, искусственном интеллекте, инвестициях и обширной сфере... Web3. Внимательно следя за новыми тенденциями и технологиями, она всесторонне освещает события, информируя и вовлекая читателей в постоянно развивающуюся среду цифровых финансов.

Hot Stories
Подпишитесь на нашу рассылку.
Новости

Как Minmax создает профессиональный торговый терминал на основе ИИ. Прогнозы: рынки по-прежнему испытывают недостаток в 2026 году.

В первые три дня июня компания Minmax обработала транзакций на сумму около 100 000 долларов, большая часть из которых пришлась на...

Узнать больше

Затишье перед штормом Солана: что сейчас говорят графики, киты и сигналы в цепочке

Solana продемонстрировала высокие результаты, обусловленные растущим принятием, институциональным интересом и ключевыми партнерствами, несмотря на потенциальные...

Узнать больше
Читать
Читать далее
Glassnode: Рынок биткоин-опционов показывает, что первоначальный шок от распродажи был поглощен.
Области применения: Новостной репортаж Технология
Glassnode: Рынок биткоин-опционов показывает, что первоначальный шок от распродажи был поглощен.
12 июня 2026
Спонсорство – это внедрение: спорт и новая логика интеграции ИИ.
Обзор Образ жизни Технология
Спонсорство – это внедрение: спорт и новая логика интеграции ИИ.
12 июня 2026
Morgan Stanley, Visa и Flutterwave: партнерства в сфере криптовалют, начиная со второй недели июня.
Бизнес Новостной репортаж Технология
Morgan Stanley, Visa и Flutterwave: партнерства в сфере криптовалют, начиная со второй недели июня.
12 июня 2026
Компания Bitget получила регистрацию PSAV в Аргентине на фоне расширения своей деятельности в Латинской Америке.
Новостной репортаж Технология
Компания Bitget получила регистрацию PSAV в Аргентине на фоне расширения своей деятельности в Латинской Америке.
12 июня 2026
CRYPTOMERIA LABS PTE. ООО