Vijesti Tehnologija
Svibanj 08, 2026

Novo OpenAI Audio modeli pokreću glasovne asistente u stvarnom vremenu s višejezičnim prijevodom i inteligencijom strujanja

Ukratko

OpenAI otpušten GPT-Modeli Realtime-2, Translate i Whisper, koji proširuju umjetnu inteligenciju za glasovnu komunikaciju u stvarnom vremenu s rasuđivanjem, prevođenjem i transkripcijom za napredne konverzacijske aplikacije.

Novo OpenAI Audio modeli pokreću glasovne asistente u stvarnom vremenu s višejezičnim prijevodom i inteligencijom strujanja

OpenAI najavio je novi skup audio modela unutar svog API ekosustava, označavajući proširenje mogućnosti glasa u stvarnom vremenu za razvojne programere i aplikacije temeljene na umjetnoj inteligenciji. Izdanje uključuje GPT-Stvarno vrijeme-2, GPT-Prijevod u stvarnom vremenu i GPT-Šapat u stvarnom vremenu, svaki dizajniran kako bi omogućio naprednije, responzivnije i kontekstualno svjesne glasovne interakcije u nizu slučajeva upotrebe.

GPT-Realtime-2 pozicioniran je kao najnapredniji glasovni model tvrtke do sada, predstavljajući GPT-5-klasno zaključivanje u audio razgovore uživo. Model je osmišljen za rukovanje složenim korisničkim zahtjevima, održavanje kontekstualnog kontinuiteta i podršku višestepenom zaključivanju tijekom interakcije u stvarnom vremenu. Namijenjen je aplikacijama gdje glasovni agenti moraju ne samo brzo reagirati, već i interpretirati namjeru, upravljati prekidima i izvršavati zadatke putem integrirane upotrebe alata.

Pored toga, GPT-Realtime-Translate omogućuje prevođenje govora uživo na više od 70 ulaznih jezika na 13 izlaznih jezika. Sustav je izgrađen za održavanje tijeka razgovora uz očuvanje značenja i vremena, omogućujući govornicima komunikaciju na različitim jezicima bez primjetnih kašnjenja. Ova je mogućnost usmjerena na globalnu korisničku podršku, obrazovanje, putovanja i prekogranične komunikacijske usluge.

Treći model, GPT-Realtime-Whisper, fokusira se na strujanje transkripcije govora u tekst. Pruža kontinuiranu transkripciju s niskom latencijom dok korisnici govore, omogućujući titlove u stvarnom vremenu, dokumentaciju uživo i neposrednu obradu govornog sadržaja. Model je dizajniran za okruženja u kojima je potrebna brza pretvorba govora u tekst, kao što su sastanci, medijski prijenosi i poslovni tijekovi rada.

OpenAI opisao je kombinirano izdanje kao korak prema glasovnim sučeljima koja nadilaze osnovne sustave naredbi i odgovora. Umjesto jednostavnog prepoznavanja govora i generiranja odgovora, modeli su namijenjeni podršci kontinuiranog zaključivanja, prevođenja, transkripcije i izvršavanja radnji unutar jednog konverzacijskog toka. Cilj je omogućiti sustave temeljene na glasu koji mogu funkcionirati više poput interaktivnih asistenata sposobnih za izvršavanje zadataka uz održavanje prirodnog dijaloga.

GPT-Realtime-2 unapređuje arhitekturu glasovne umjetne inteligencije sa sustavima za pretvorbu glasa u radnju i proširenim kontekstnim prozorima

Tvrtka je istaknula nekoliko novih dizajnerskih obrazaca koje omogućuje tehnologija. To uključuje sustave za pretvorbu glasa u radnju, gdje korisnici mogu opisati zadatke koji se izvršavaju putem automatiziranog zaključivanja i integracije alata; aplikacije za pretvorbu sustava u glas, gdje softver generira govorne upute na temelju kontekstualnih podataka; i sustave za prevođenje glasa u glas, koji omogućuju višejezičnu komunikaciju u stvarnom vremenu između govornika.

GPT-Realtime-2 uvodi dodatna arhitektonska poboljšanja za produkcijsku upotrebu. To uključuje dulje kontekstne prozore proširene na 128 tisuća tokena, poboljšano ponašanje oporavka tijekom prekida ili pogrešaka, paralelno izvršavanje alata s transparentnim povratnim informacijama i kontroliranije podešavanje tona ovisno o kontekstu razgovora. Razvojni programeri također mogu fino podesiti razine zaključivanja kako bi uravnotežili brzinu i složenost na temelju potreba aplikacije.

Referentne vrijednosti performansi koje navodi OpenAI pokazuju poboljšane rezultate u zadacima zaključivanja temeljenom na zvuku i praćenja instrukcija u usporedbi s prethodnim iteracijama svojih modela u stvarnom vremenu. Sustav također pokazuje jače rukovanje terminologijom specifičnom za domenu i stabilnije ponašanje u višestrukim konverzacijskim okruženjima.

Izdanje također uključuje sigurnosne mehanizme, uključujući praćenje u stvarnom vremenu i klasifikaciju sadržaja unutar aktivnih sesija, uz kontrole na razini programera za dodatne zaštitne mjere. Modeli su dostupni putem Realtime API-ja i pozicionirani su za implementaciju u poslovnim, potrošačkim i programerskim aplikacijama, s cijenama strukturiranima na temelju metrike obrade zvuka temeljene na korištenju.

Uvođenje GPT-Realtime-2 i njegovi prateći modeli odražavaju širi pomak prema računalnim sustavima temeljenim na glasu sposobnim za rasuđivanje, prevođenje i transkripciju u stvarnom vremenu, s ciljem da govorna interakcija sa softverom bude funkcionalnija, prilagodljivija i operativno sposobnija.

Izjava o odricanju od odgovornosti

U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.

O autoru

Alisa, predana novinarka u MPost, specijaliziran za kriptovalute, umjetnu inteligenciju, ulaganja i široko područje Web3. S oštrim okom za nove trendove i tehnologije, ona pruža sveobuhvatnu pokrivenost kako bi informirala i uključila čitatelje u krajolik digitalnih financija koji se neprestano razvija.

Više članaka
Alisa Davidson
Alisa Davidson

Alisa, predana novinarka u MPost, specijaliziran za kriptovalute, umjetnu inteligenciju, ulaganja i široko područje Web3. S oštrim okom za nove trendove i tehnologije, ona pruža sveobuhvatnu pokrivenost kako bi informirala i uključila čitatelje u krajolik digitalnih financija koji se neprestano razvija.

Zatišje prije oluje Solana: Što sada govore grafikoni, kitovi i signali na lancu

Solana je pokazala snažne rezultate, potaknute sve većim usvajanjem, institucionalnim interesom i ključnim partnerstvima, dok se istovremeno suočava s potencijalnim ...

Znati više

Kriptovalute u travnju 2025.: Ključni trendovi, promjene i što slijedi

U travnju 2025. kripto prostor se usredotočio na jačanje osnovne infrastrukture, a Ethereum se pripremao za Pectru ...

Znati više
Pročitaj više
Pročitaj više
Pfizer će integrirati Chai Discoveryjevu AI platformu za unapređenje i skaliranje molekularnog dizajna lijekova
Vijesti Tehnologija
Pfizer će integrirati Chai Discoveryjevu AI platformu za unapređenje i skaliranje molekularnog dizajna lijekova
Lipnja 5, 2026
Ažuriranje na vratima: Produženo radno vrijeme zaliha, Anthropic Airdrops, i tjedan obaranja rekorda
posao Vijesti Tehnologija
Ažuriranje na vratima: Produženo radno vrijeme zaliha, Anthropic Airdrops, i tjedan obaranja rekorda
Lipnja 5, 2026
Grayscale kaže da prodaja BTC-a tvrtke Strategy postavlja pitanja o modelu zadužene trezorske obveznice
posao Vijesti Tehnologija
Grayscale kaže da prodaja BTC-a tvrtke Strategy postavlja pitanja o modelu zadužene trezorske obveznice
Lipnja 5, 2026
8 platformi koje stvaraju iskustvo App Storea za Web3 U 2026
Top liste Tehnologija
8 platformi koje stvaraju iskustvo App Storea za Web3 U 2026
Lipnja 5, 2026
CRYPTOMERIA LABS PTE. LTD.