Нові OpenAI Аудіомоделі забезпечують роботу голосових помічників у режимі реального часу завдяки багатомовному перекладу та потоковому інтелекту
Коротко
OpenAI випущений GPT- Моделі Realtime-2, Translate та Whisper, що розширюють можливості штучного інтелекту для роботи з голосом у реальному часі завдяки міркуванню, перекладу та транскрипції для розширених розмовних застосувань.

OpenAI анонсувала новий набір аудіомоделей у своїй екосистемі API, що ознаменує розширення можливостей голосового зв'язку в режимі реального часу для розробників та програм на базі штучного інтелекту. Реліз включає GPT-Реальний час-2, GPT-Переклад у реальному часі та GPT-Realtime-Whisper, кожен з яких розроблений для забезпечення більш просунутих, чуйних та контекстно-залежних голосових взаємодій у різних випадках використання.
GPT-Realtime-2 позиціонується як найсучасніша голосова модель компанії на сьогоднішній день, представляючи GPT-5-класові міркування в живі аудіорозмови. Модель розроблена для обробки складних запитів користувачів, підтримки контекстуальної безперервності та багатоетапного міркування під час взаємодії в режимі реального часу. Вона призначена для застосувань, де голосові агенти повинні не лише швидко реагувати, але й інтерпретувати наміри, керувати перериваннями та виконувати завдання за допомогою інтегрованого використання інструментів.
Поряд з ним, GPT-Realtime-Translate забезпечує живий переклад мовлення з понад 70 мов введення на 13 мов виведення. Система створена для підтримки розмовного ходу, зберігаючи при цьому зміст і синхронізацію, дозволяючи носіям спілкуватися різними мовами без помітних затримок. Ця функція орієнтована на глобальну підтримку клієнтів, освіту, подорожі та послуги транскордонного зв'язку.
Третя модель, GPT-Realtime-Whisper зосереджений на потоковому перетворенні мовлення на текст. Він забезпечує безперервну транскрипцію з низькою затримкою під час розмови користувачів, що дозволяє створювати субтитри в режимі реального часу, документувати в реальному часі та негайно обробляти розмовний контент. Модель розроблена для середовищ, де потрібне швидке перетворення мовлення на текст, таких як зустрічі, медіа-трансляції та корпоративні робочі процеси.
OpenAI описав об’єднаний реліз як крок до голосових інтерфейсів, що виходять за рамки базових систем командування та реагування. Замість простого розпізнавання мовлення та генерації відповідей, моделі призначені для підтримки безперервного мислення, перекладу, транскрипції та виконання дій в рамках єдиного розмовного потоку. Мета полягає в тому, щоб дозволити голосовим системам функціонувати більше як інтерактивні помічники, здатні виконувати завдання, зберігаючи природний діалог.
GPT-Realtime-2 покращує архітектуру голосового штучного інтелекту завдяки системам голосового керування та розширеним контекстним вікнам
Компанія виділила кілька нових шаблонів проектування, що стали можливими завдяки цій технології. До них належать системи перетворення голосу на дії, де користувачі можуть описувати завдання, що виконуються за допомогою автоматизованих міркувань та інтеграції інструментів; додатки «системи-голоси», де програмне забезпечення генерує голосові вказівки на основі контекстних даних; та системи перекладу голосу, які дозволяють багатомовне спілкування між мовцями в режимі реального часу.
GPT-Realtime-2 впроваджує додаткові архітектурні покращення для використання у виробничому середовищі. До них належать довші вікна контексту, розширені до 128 тисяч токенів, покращена поведінка відновлення під час перерв або помилок, паралельне виконання інструментів із прозорим зворотним зв'язком та більш кероване налаштування тону залежно від контексту розмови. Розробники також можуть точно налаштовувати рівні міркувань, щоб збалансувати швидкість і складність залежно від потреб програми.
Орієнтири продуктивності, що наводяться OpenAI вказують на покращені результати в завданнях на основі аудіо та виконання інструкцій порівняно з попередніми ітераціями моделей реального часу. Система також демонструє кращу обробку предметно-специфічної термінології та стабільнішу поведінку в умовах багаточергової розмови.
Цей реліз також включає механізми безпеки, зокрема моніторинг у режимі реального часу та класифікацію контенту в активних сесіях, а також елементи керування на рівні розробника для додаткових гарантій. Моделі доступні через Realtime API та призначені для розгортання в корпоративних, споживчих та розробницьких додатках, а ціноутворення структуроване на основі показників обробки аудіо на основі використання.
введення GPT-Realtime-2 та супутні моделі відображають ширший зсув у бік голосових обчислювальних систем, здатних міркувати, перекладати та транскрибувати в режимі реального часу, з метою зробити розмовну взаємодію з програмним забезпеченням більш функціональною, адаптивною та операційно спроможною.
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Аліса, відданий журналіст на MPost, спеціалізується на криптовалюті, штучному інтелекті, інвестиціях та широкій сфері Web3. З гострим поглядом на нові тенденції та технології, вона надає всебічне висвітлення, щоб інформувати та залучати читачів до постійно змінюваного ландшафту цифрових фінансів.
інші статті
Аліса, відданий журналіст на MPost, спеціалізується на криптовалюті, штучному інтелекті, інвестиціях та широкій сфері Web3. З гострим поглядом на нові тенденції та технології, вона надає всебічне висвітлення, щоб інформувати та залучати читачів до постійно змінюваного ландшафту цифрових фінансів.



