Звіт про новини Технологія
Травень 08, 2026

Нові OpenAI Аудіомоделі забезпечують роботу голосових помічників у режимі реального часу завдяки багатомовному перекладу та потоковому інтелекту

Коротко

OpenAI випущений GPT- Моделі Realtime-2, Translate та Whisper, що розширюють можливості штучного інтелекту для роботи з голосом у реальному часі завдяки міркуванню, перекладу та транскрипції для розширених розмовних застосувань.

Нові OpenAI Аудіомоделі забезпечують роботу голосових помічників у режимі реального часу завдяки багатомовному перекладу та потоковому інтелекту

OpenAI анонсувала новий набір аудіомоделей у своїй екосистемі API, що ознаменує розширення можливостей голосового зв'язку в режимі реального часу для розробників та програм на базі штучного інтелекту. Реліз включає GPT-Реальний час-2, GPT-Переклад у реальному часі та GPT-Realtime-Whisper, кожен з яких розроблений для забезпечення більш просунутих, чуйних та контекстно-залежних голосових взаємодій у різних випадках використання.

GPT-Realtime-2 позиціонується як найсучасніша голосова модель компанії на сьогоднішній день, представляючи GPT-5-класові міркування в живі аудіорозмови. Модель розроблена для обробки складних запитів користувачів, підтримки контекстуальної безперервності та багатоетапного міркування під час взаємодії в режимі реального часу. Вона призначена для застосувань, де голосові агенти повинні не лише швидко реагувати, але й інтерпретувати наміри, керувати перериваннями та виконувати завдання за допомогою інтегрованого використання інструментів.

Поряд з ним, GPT-Realtime-Translate забезпечує живий переклад мовлення з понад 70 мов введення на 13 мов виведення. Система створена для підтримки розмовного ходу, зберігаючи при цьому зміст і синхронізацію, дозволяючи носіям спілкуватися різними мовами без помітних затримок. Ця функція орієнтована на глобальну підтримку клієнтів, освіту, подорожі та послуги транскордонного зв'язку.

Третя модель, GPT-Realtime-Whisper зосереджений на потоковому перетворенні мовлення на текст. Він забезпечує безперервну транскрипцію з низькою затримкою під час розмови користувачів, що дозволяє створювати субтитри в режимі реального часу, документувати в реальному часі та негайно обробляти розмовний контент. Модель розроблена для середовищ, де потрібне швидке перетворення мовлення на текст, таких як зустрічі, медіа-трансляції та корпоративні робочі процеси.

OpenAI описав об’єднаний реліз як крок до голосових інтерфейсів, що виходять за рамки базових систем командування та реагування. Замість простого розпізнавання мовлення та генерації відповідей, моделі призначені для підтримки безперервного мислення, перекладу, транскрипції та виконання дій в рамках єдиного розмовного потоку. Мета полягає в тому, щоб дозволити голосовим системам функціонувати більше як інтерактивні помічники, здатні виконувати завдання, зберігаючи природний діалог.

GPT-Realtime-2 покращує архітектуру голосового штучного інтелекту завдяки системам голосового керування та розширеним контекстним вікнам

Компанія виділила кілька нових шаблонів проектування, що стали можливими завдяки цій технології. До них належать системи перетворення голосу на дії, де користувачі можуть описувати завдання, що виконуються за допомогою автоматизованих міркувань та інтеграції інструментів; додатки «системи-голоси», де програмне забезпечення генерує голосові вказівки на основі контекстних даних; та системи перекладу голосу, які дозволяють багатомовне спілкування між мовцями в режимі реального часу.

GPT-Realtime-2 впроваджує додаткові архітектурні покращення для використання у виробничому середовищі. До них належать довші вікна контексту, розширені до 128 тисяч токенів, покращена поведінка відновлення під час перерв або помилок, паралельне виконання інструментів із прозорим зворотним зв'язком та більш кероване налаштування тону залежно від контексту розмови. Розробники також можуть точно налаштовувати рівні міркувань, щоб збалансувати швидкість і складність залежно від потреб програми.

Орієнтири продуктивності, що наводяться OpenAI вказують на покращені результати в завданнях на основі аудіо та виконання інструкцій порівняно з попередніми ітераціями моделей реального часу. Система також демонструє кращу обробку предметно-специфічної термінології та стабільнішу поведінку в умовах багаточергової розмови.

Цей реліз також включає механізми безпеки, зокрема моніторинг у режимі реального часу та класифікацію контенту в активних сесіях, а також елементи керування на рівні розробника для додаткових гарантій. Моделі доступні через Realtime API та призначені для розгортання в корпоративних, споживчих та розробницьких додатках, а ціноутворення структуроване на основі показників обробки аудіо на основі використання.

введення GPT-Realtime-2 та супутні моделі відображають ширший зсув у бік голосових обчислювальних систем, здатних міркувати, перекладати та транскрибувати в режимі реального часу, з метою зробити розмовну взаємодію з програмним забезпеченням більш функціональною, адаптивною та операційно спроможною.

Ключові слова:

відмова

Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.

про автора

Аліса, відданий журналіст на MPost, спеціалізується на криптовалюті, штучному інтелекті, інвестиціях та широкій сфері Web3. З гострим поглядом на нові тенденції та технології, вона надає всебічне висвітлення, щоб інформувати та залучати читачів до постійно змінюваного ландшафту цифрових фінансів.

інші статті
Аліса Девідсон
Аліса Девідсон

Аліса, відданий журналіст на MPost, спеціалізується на криптовалюті, штучному інтелекті, інвестиціях та широкій сфері Web3. З гострим поглядом на нові тенденції та технології, вона надає всебічне висвітлення, щоб інформувати та залучати читачів до постійно змінюваного ландшафту цифрових фінансів.

Hot Stories
Приєднуйтеся до нашої розсилки.
Останні новини

Як Minmax створює професійний торговий термінал зі штучним інтелектом, якого все ще бракує на ринках у 2026 році

За перші три дні червня Minmax обробив приблизно 100 000 доларів США, більшу частину через ...

Дізнайтеся більше

Затишшя перед штормом Солана: що зараз говорять графіки, кити та сигнали на мережі

Солана продемонструвала високі показники, зумовлені зростанням рівня впровадження, інституційного інтересу та ключових партнерств, водночас стикаючись з потенційними ...

Дізнайтеся більше
Детальніше
Читати далі
Дебати щодо дна біткойна: Galaxy, NYDIG та Standard Chartered розходяться, але Bitwise каже, що справжнє питання — це зростання
ринки Звіт про новини Технологія
Дебати щодо дна біткойна: Galaxy, NYDIG та Standard Chartered розходяться, але Bitwise каже, що справжнє питання — це зростання
16 Червня, 2026.
Довгострокові власники біткойнів досягли рекордної частки пропозиції, оскільки ринки очікують першого рішення FOMC від Warsh
ринки Звіт про новини Технологія
Довгострокові власники біткойнів досягли рекордної частки пропозиції, оскільки ринки очікують першого рішення FOMC від Warsh
16 Червня, 2026.
Inveniam придбає MANTRA для розширення інфраструктури штучного інтелекту, RWA та інституційного блокчейну.
Звіт про новини Технологія
Inveniam придбає MANTRA для розширення інфраструктури штучного інтелекту, RWA та інституційного блокчейну.
16 Червня, 2026.
Inco Lightning запускається на базі, розширюючи конфіденційність смарт-контрактів за допомогою зашифрованих обчислень та захисту даних
Звіт про новини Технологія
Inco Lightning запускається на базі, розширюючи конфіденційність смарт-контрактів за допомогою зашифрованих обчислень та захисту даних
16 Червня, 2026.
CRYPTOMERIA LABS PTE. LTD.