Новини Технологии
Май 08, 2026

НОВ OpenAI Аудио моделите захранват гласови асистенти в реално време с многоезичен превод и стрийминг интелигентност

Накратко

OpenAI освободен GPT-Модели Realtime-2, Translate и Whisper, разширяващи гласовия изкуствен интелект в реално време с разсъждения, превод и транскрипция за усъвършенствани разговорни приложения.

НОВ OpenAI Аудио моделите захранват гласови асистенти в реално време с многоезичен превод и стрийминг интелигентност

OpenAI обяви нов набор от аудио модели в своята API екосистема, отбелязвайки разширяване на възможностите за глас в реално време за разработчици и приложения, управлявани от изкуствен интелект. Версията включва GPT-Реално време-2, GPT-Превод в реално време и GPT-Шепот в реално време, всеки от които е проектиран да позволи по-усъвършенствани, отзивчиви и контекстно-осъзнати гласови взаимодействия в редица случаи на употреба.

GPT-Realtime-2 е позициониран като най-модерния гласов модел на компанията до момента, въвеждайки GPT-5-класово разсъждение в аудио разговори на живо. Моделът е проектиран да обработва сложни потребителски заявки, да поддържа контекстуална непрекъснатост и да поддържа многоетапно разсъждение, докато взаимодейства в реално време. Той е предназначен за приложения, където гласовите агенти трябва не само да реагират бързо, но и да интерпретират намеренията, да управляват прекъсванията и да изпълняват задачи чрез интегрирано използване на инструменти.

наред с него, GPT-Realtime-Translate позволява превод на реч на живо на повече от 70 входни езика на 13 изходни езика. Системата е създадена да поддържа разговорния поток, като същевременно запазва смисъла и времето, позволявайки на говорещите да общуват на различни езици без забележими забавяния. Тази възможност е насочена към глобална поддръжка на клиенти, образование, пътувания и трансгранични комуникационни услуги.

Третият модел, GPT-Realtime-Whisper се фокусира върху стрийминг транскрипцията на реч в текст. Тя осигурява непрекъсната транскрипция с ниска латентност, докато потребителите говорят, което позволява субтитри в реално време, документиране на живо и незабавна обработка на говорено съдържание. Моделът е проектиран за среди, където се изисква бързо преобразуване на реч в текст, като например срещи, медийни излъчвания и корпоративни работни процеси.

OpenAI описаха комбинираното издание като стъпка към гласови интерфейси, които надхвърлят основните системи за командване и отговор. Вместо просто да разпознават реч и да генерират отговори, моделите са предназначени да поддържат непрекъснато разсъждение, превод, транскрипция и изпълнение на действия в рамките на един разговорен поток. Целта е да се даде възможност на гласово базирани системи да функционират по-скоро като интерактивни асистенти, способни да изпълняват задачи, като същевременно поддържат естествен диалог.

GPT-Realtime-2 усъвършенства архитектурата на гласовия изкуствен интелект със системи за гласово действие и разширени контекстни прозорци

Компанията открои няколко нововъзникващи дизайнерски модела, осигурени от технологията. Те включват системи за гласово преобразуване, където потребителите могат да описват задачи, изпълнявани чрез автоматизирано разсъждение и интеграция на инструменти; приложения за гласово преобразуване, където софтуерът генерира гласови насоки въз основа на контекстуални данни; и системи за гласов превод, които позволяват многоезична комуникация в реално време между говорещите.

GPT-Realtime-2 въвежда допълнителни архитектурни подобрения за производствена употреба. Те включват по-дълги контекстни прозорци, разширени до 128K токена, подобрено поведение при възстановяване по време на прекъсвания или грешки, паралелно изпълнение на инструменти с прозрачна обратна връзка и по-контролируемо регулиране на тона в зависимост от контекста на разговора. Разработчиците могат също така да настройват фино нивата на разсъждение, за да балансират скоростта и сложността въз основа на нуждите на приложението.

Критерии за ефективност, цитирани от OpenAI показват подобрени резултати в задачи за разсъждение, базирани на аудио, и следване на инструкции в сравнение с предишни итерации на своите модели в реално време. Системата също така демонстрира по-добра обработка на специфична за областта терминология и по-стабилно поведение в многоетапни разговорни ситуации.

Версията включва и механизми за безопасност, включително наблюдение в реално време и класификация на съдържанието в рамките на активни сесии, както и контроли на ниво разработчик за допълнителни предпазни мерки. Моделите са достъпни чрез Realtime API и са позиционирани за внедряване в корпоративни, потребителски и насочени към разработчици приложения, като цените са структурирани въз основа на показатели за обработка на аудио, базирани на употреба.

Въвеждането на GPT-Realtime-2 и съпътстващите го модели отразяват по-широка промяна към гласово-базирани изчислителни системи, способни да разсъждават, превеждат и транскрибират в реално време, с цел да направят говореното взаимодействие със софтуер по-функционално, адаптивно и оперативно способно.

Отказ от отговорност

В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.

За автора

Алиса, всеотдаен журналист в MPost, специализира в криптовалути, изкуствен интелект, инвестиции и обширната сфера на Web3. С остър поглед към нововъзникващите тенденции и технологии, тя предоставя изчерпателно покритие, за да информира и ангажира читателите в непрекъснато развиващия се пейзаж на дигиталните финанси.

Още статии
Алиса Дейвидсън
Алиса Дейвидсън

Алиса, всеотдаен журналист в MPost, специализира в криптовалути, изкуствен интелект, инвестиции и обширната сфера на Web3. С остър поглед към нововъзникващите тенденции и технологии, тя предоставя изчерпателно покритие, за да информира и ангажира читателите в непрекъснато развиващия се пейзаж на дигиталните финанси.

Hot Stories
Присъединете се към нашия бюлетин.
Последни новини

Как Minmax изгражда професионалния терминал за търговия с изкуствен интелект, който прогнозира пазарите през 2026 г.

Minmax обработи приблизително 100 000 долара в обем през първите три дни на юни, по-голямата част от които чрез ...

Научете още

Спокойствието преди бурята Солана: Какво казват графиките, китовете и сигналите на веригата сега

Солана демонстрира силно представяне, обусловено от нарастващото приемане, институционалния интерес и ключовите партньорства, като същевременно е изправена пред потенциални...

Научете още
Прочетете повече
Прочетете повече
Glassnode: Пазарът на биткойн опции показва, че първоначалният шок от разпродажбата е абсорбиран
пазари Новини Технологии
Glassnode: Пазарът на биткойн опции показва, че първоначалният шок от разпродажбата е абсорбиран
Юни 12, 2026
Спонсорството е внедряването: Спортът и новата логика на интеграцията на изкуствения интелект
Мнение Lifestyle Технологии
Спонсорството е внедряването: Спортът и новата логика на интеграцията на изкуствения интелект
Юни 12, 2026
Morgan Stanley, Visa и Flutterwave: Крипто партньорства от втората седмица на юни
Бизнес Новини Технологии
Morgan Stanley, Visa и Flutterwave: Крипто партньорства от втората седмица на юни
Юни 12, 2026
Bitget си осигурява регистрация на PSAV в Аржентина на фона на разширяването в Латинска Америка
Новини Технологии
Bitget си осигурява регистрация на PSAV в Аржентина на фона на разширяването в Латинска Америка
Юни 12, 2026
CRYPTOMERIA LABS PTE. LTD.