Ulat sa Balita Teknolohiya
Mayo 08, 2026

bago OpenAI Pinapagana ng mga Modelo ng Audio ang mga Real-Time Voice Assistant Gamit ang Multilingual Translation at Streaming Intelligence

Sa madaling sabi

OpenAI pinalaya GPTMga modelong -Realtime-2, Translate, at Whisper, na nagpapalawak ng real-time voice AI gamit ang pangangatwiran, pagsasalin, at transkripsyon para sa mga advanced na aplikasyon sa pakikipag-usap.

bago OpenAI Pinapagana ng mga Modelo ng Audio ang mga Real-Time Voice Assistant Gamit ang Multilingual Translation at Streaming Intelligence

OpenAI inanunsyo ang isang bagong hanay ng mga modelo ng audio sa loob ng API ecosystem nito, na nagmamarka ng pagpapalawak sa mga kakayahan sa real-time na boses para sa mga developer at mga aplikasyon na pinapagana ng AI. Kasama sa paglabas ang GPT-Realtime-2, GPT-Realtime-Translate, at GPT-Realtime-Whisper, bawat isa ay dinisenyo upang paganahin ang mas advanced, responsive, at context-aware na mga interaksyon sa boses sa iba't ibang mga pagkakataon ng paggamit.

GPTAng -Realtime-2 ay nakaposisyon bilang ang pinaka-advanced na modelo ng boses ng kumpanya sa kasalukuyan, na nagpapakilala GPT-5-klasipika ang pangangatwiran sa mga live na audio na pag-uusap. Ang modelo ay dinisenyo upang pangasiwaan ang mga kumplikadong kahilingan ng gumagamit, mapanatili ang kontekstong pagpapatuloy, at suportahan ang pangangatwiran na may maraming hakbang habang nakikipag-ugnayan sa totoong oras. Ito ay inilaan para sa mga aplikasyon kung saan ang mga voice agent ay hindi lamang dapat tumugon nang mabilis kundi dapat ding bigyang-kahulugan ang layunin, pamahalaan ang mga pagkaantala, at isagawa ang mga gawain sa pamamagitan ng pinagsamang paggamit ng tool.

Sa tabi nito, GPTAng -Realtime-Translate ay nagbibigay-daan sa live na pagsasalin ng salita sa mahigit 70 input na wika patungo sa 13 output na wika. Ang sistema ay ginawa upang mapanatili ang daloy ng pag-uusap habang pinapanatili ang kahulugan at tiyempo, na nagpapahintulot sa mga nagsasalita na makipag-usap sa iba't ibang wika nang walang kapansin-pansing pagkaantala. Ang kakayahang ito ay naka-target sa pandaigdigang suporta sa customer, edukasyon, paglalakbay, at mga serbisyo ng komunikasyon sa iba't ibang bansa.

Ang ikatlong modelo, GPTAng -Realtime-Whisper, ay nakatuon sa pag-stream ng transkripsyon mula sa speech-to-text. Nagbibigay ito ng tuluy-tuloy at mababang latency na transkripsyon habang nagsasalita ang mga gumagamit, na nagbibigay-daan sa mga real-time na caption, live na dokumentasyon, at agarang pagproseso ng pasalitang nilalaman. Ang modelo ay dinisenyo para sa mga kapaligiran kung saan kinakailangan ang mabilis na pag-convert ng pagsasalita sa teksto, tulad ng mga pagpupulong, media broadcast, at mga daloy ng trabaho sa negosyo.

OpenAI inilarawan ang pinagsamang paglabas bilang isang hakbang tungo sa mga voice interface na higit pa sa mga pangunahing sistema ng command-and-response. Sa halip na kilalanin lamang ang pagsasalita at bumuo ng mga tugon, ang mga modelo ay inilaan upang suportahan ang patuloy na pangangatwiran, pagsasalin, transkripsyon, at pagpapatupad ng aksyon sa loob ng iisang daloy ng pag-uusap. Ang layunin ay paganahin ang mga sistemang nakabatay sa boses na maaaring gumana nang mas katulad ng mga interactive na katulong na may kakayahang makumpleto ang mga gawain habang pinapanatili ang natural na diyalogo.

GPTPinapaunlad ng -Realtime-2 ang Arkitektura ng Voice AI Gamit ang mga Voice-To-Action System at Expanded Context Windows

Itinampok ng kumpanya ang ilang umuusbong na mga pattern ng disenyo na pinagana ng teknolohiya. Kabilang dito ang mga voice-to-action system, kung saan maaaring ilarawan ng mga gumagamit ang mga gawaing isinasagawa sa pamamagitan ng awtomatikong pangangatwiran at pagsasama ng tool; mga system-to-voice application, kung saan ang software ay bumubuo ng pasalitang gabay batay sa kontekstong datos; at mga voice-to-voice translation system, na nagbibigay-daan sa real-time na komunikasyon sa maraming wika sa pagitan ng mga nagsasalita.

GPT-Nagpapakilala ang Realtime-2 ng mga karagdagang pagpapabuti sa arkitektura para sa paggamit sa produksyon. Kabilang dito ang mas mahahabang context window na pinalawak sa 128K token, pinahusay na pag-uugali sa pagbawi sa panahon ng mga pagkaantala o error, parallel tool execution na may transparent na feedback, at mas kontroladong pagsasaayos ng tono depende sa konteksto ng pag-uusap. Maaari ring pinuhin ng mga developer ang mga antas ng pangangatwiran upang balansehin ang bilis at pagiging kumplikado batay sa mga pangangailangan ng application.

Mga benchmark ng pagganap na binanggit ni OpenAI nagpapahiwatig ng pinahusay na mga resulta sa pangangatwiran na nakabatay sa audio at mga gawain sa pagsunod sa instruksyon kumpara sa mga nakaraang pag-ulit ng mga realtime na modelo nito. Nagpapakita rin ang sistema ng mas mahusay na paghawak ng mga terminolohiyang partikular sa domain at mas matatag na pag-uugali sa mga setting ng pag-uusap na may maraming turno.

Isinasama rin sa release ang mga mekanismo ng kaligtasan, kabilang ang real-time na pagsubaybay at pag-uuri ng nilalaman sa loob ng mga aktibong sesyon, kasama ang mga kontrol sa antas ng developer para sa karagdagang mga pananggalang. Ang mga modelo ay makukuha sa pamamagitan ng Realtime API at nakaposisyon para sa pag-deploy sa mga application na nakaharap sa enterprise, consumer, at developer, na may pagpepresyo na nakabalangkas sa mga sukatan ng pagproseso ng audio batay sa paggamit.

Ang pagpapakilala ng GPTAng -Realtime-2 at ang mga kasamang modelo nito ay sumasalamin sa mas malawak na pagbabago patungo sa mga sistemang computing na nakabatay sa boses na may kakayahang mangatwiran, magsalin, at mag-transcribe nang real time, na may layuning gawing mas functional, adaptive, at operational ang pasalitang interaksyon sa software.

Pagtanggi sa pananagutan

Sa linya na may Mga alituntunin ng Trust Project, pakitandaan na ang impormasyong ibinigay sa pahinang ito ay hindi nilayon at hindi dapat bigyang-kahulugan bilang legal, buwis, pamumuhunan, pananalapi, o anumang iba pang paraan ng payo. Mahalagang mamuhunan lamang kung ano ang maaari mong mawala at humingi ng independiyenteng payo sa pananalapi kung mayroon kang anumang mga pagdududa. Para sa karagdagang impormasyon, iminumungkahi naming sumangguni sa mga tuntunin at kundisyon pati na rin sa mga pahina ng tulong at suporta na ibinigay ng nagbigay o advertiser. MetaversePost ay nakatuon sa tumpak, walang pinapanigan na pag-uulat, ngunit ang mga kondisyon ng merkado ay maaaring magbago nang walang abiso.

Tungkol sa Ang May-akda

Alisa, isang dedikadong mamamahayag sa MPost, ay dalubhasa sa crypto, AI, mga pamumuhunan, at sa malawak na larangan ng Web3. Sa isang matalas na mata para sa mga umuusbong na uso at teknolohiya, naghahatid siya ng komprehensibong saklaw upang ipaalam at hikayatin ang mga mambabasa sa patuloy na umuusbong na tanawin ng digital finance.

Mas marami pang artikulo
Alisa Davidson
Alisa Davidson

Alisa, isang dedikadong mamamahayag sa MPost, ay dalubhasa sa crypto, AI, mga pamumuhunan, at sa malawak na larangan ng Web3. Sa isang matalas na mata para sa mga umuusbong na uso at teknolohiya, naghahatid siya ng komprehensibong saklaw upang ipaalam at hikayatin ang mga mambabasa sa patuloy na umuusbong na tanawin ng digital finance.

Paano Binubuo ng Minmax ang Propesyonal na AI Trading Terminal? Kulang Pa Rin ang Prediksyon sa mga Merkado sa 2026

Ang Minmax ay nagproseso ng humigit-kumulang $100,000 na dami sa unang tatlong araw ng Hunyo, karamihan nito ay sa pamamagitan ng ...

Malaman Higit Pa

Ang Kalmado Bago Ang Bagyo ng Solana: Ano ang Sinasabi Ngayon ng mga Chart, Whale, At On-Chain Signal

Ang Solana ay nagpakita ng malakas na pagganap, na hinihimok ng pagtaas ng pag-aampon, interes sa institusyon, at pangunahing pakikipagsosyo, habang nahaharap sa potensyal ...

Malaman Higit Pa
Magbasa Pa
Magbasa nang higit pa
Update sa Gate: Mula sa Kinabukasan ng mga Produkto Hanggang sa mga Hula sa World Cup — Iniulat ng Gate ang Paglago sa Lahat ng Larangan
Digest Ulat sa Balita Teknolohiya
Update sa Gate: Mula sa Kinabukasan ng mga Produkto Hanggang sa mga Hula sa World Cup — Iniulat ng Gate ang Paglago sa Lahat ng Larangan
Hunyo 12, 2026
Glassnode: Ipinapakita ng Bitcoin Options Market na Natanggap Na ang Unang Selloff Shock
markets Ulat sa Balita Teknolohiya
Glassnode: Ipinapakita ng Bitcoin Options Market na Natanggap Na ang Unang Selloff Shock
Hunyo 12, 2026
Ang Sponsorship ay Ang Pag-deploy: Sport At Ang Bagong Lohika Ng Pagsasama ng AI
Palagay Pamumuhay Teknolohiya
Ang Sponsorship ay Ang Pag-deploy: Sport At Ang Bagong Lohika Ng Pagsasama ng AI
Hunyo 12, 2026
Morgan Stanley, Visa at Flutterwave: Mga Pakikipagsosyo sa Crypto Mula Ika-2 Linggo ng Hunyo
Negosyo Ulat sa Balita Teknolohiya
Morgan Stanley, Visa at Flutterwave: Mga Pakikipagsosyo sa Crypto Mula Ika-2 Linggo ng Hunyo
Hunyo 12, 2026
CRYPTOMERIA LABS PTE. LTD.