Novo OpenAI Audio modeli pokreću glasovne asistente u stvarnom vremenu s višejezičnim prijevodom i inteligencijom strujanja
Ukratko
OpenAI otpušten GPT-Modeli Realtime-2, Translate i Whisper, koji proširuju umjetnu inteligenciju za glasovnu komunikaciju u stvarnom vremenu s rasuđivanjem, prevođenjem i transkripcijom za napredne konverzacijske aplikacije.

OpenAI najavio je novi skup audio modela unutar svog API ekosustava, označavajući proširenje mogućnosti glasa u stvarnom vremenu za razvojne programere i aplikacije temeljene na umjetnoj inteligenciji. Izdanje uključuje GPT-Stvarno vrijeme-2, GPT-Prijevod u stvarnom vremenu i GPT-Šapat u stvarnom vremenu, svaki dizajniran kako bi omogućio naprednije, responzivnije i kontekstualno svjesne glasovne interakcije u nizu slučajeva upotrebe.
GPT-Realtime-2 pozicioniran je kao najnapredniji glasovni model tvrtke do sada, predstavljajući GPT-5-klasno zaključivanje u audio razgovore uživo. Model je osmišljen za rukovanje složenim korisničkim zahtjevima, održavanje kontekstualnog kontinuiteta i podršku višestepenom zaključivanju tijekom interakcije u stvarnom vremenu. Namijenjen je aplikacijama gdje glasovni agenti moraju ne samo brzo reagirati, već i interpretirati namjeru, upravljati prekidima i izvršavati zadatke putem integrirane upotrebe alata.
Pored toga, GPT-Realtime-Translate omogućuje prevođenje govora uživo na više od 70 ulaznih jezika na 13 izlaznih jezika. Sustav je izgrađen za održavanje tijeka razgovora uz očuvanje značenja i vremena, omogućujući govornicima komunikaciju na različitim jezicima bez primjetnih kašnjenja. Ova je mogućnost usmjerena na globalnu korisničku podršku, obrazovanje, putovanja i prekogranične komunikacijske usluge.
Treći model, GPT-Realtime-Whisper, fokusira se na strujanje transkripcije govora u tekst. Pruža kontinuiranu transkripciju s niskom latencijom dok korisnici govore, omogućujući titlove u stvarnom vremenu, dokumentaciju uživo i neposrednu obradu govornog sadržaja. Model je dizajniran za okruženja u kojima je potrebna brza pretvorba govora u tekst, kao što su sastanci, medijski prijenosi i poslovni tijekovi rada.
OpenAI opisao je kombinirano izdanje kao korak prema glasovnim sučeljima koja nadilaze osnovne sustave naredbi i odgovora. Umjesto jednostavnog prepoznavanja govora i generiranja odgovora, modeli su namijenjeni podršci kontinuiranog zaključivanja, prevođenja, transkripcije i izvršavanja radnji unutar jednog konverzacijskog toka. Cilj je omogućiti sustave temeljene na glasu koji mogu funkcionirati više poput interaktivnih asistenata sposobnih za izvršavanje zadataka uz održavanje prirodnog dijaloga.
GPT-Realtime-2 unapređuje arhitekturu glasovne umjetne inteligencije sa sustavima za pretvorbu glasa u radnju i proširenim kontekstnim prozorima
Tvrtka je istaknula nekoliko novih dizajnerskih obrazaca koje omogućuje tehnologija. To uključuje sustave za pretvorbu glasa u radnju, gdje korisnici mogu opisati zadatke koji se izvršavaju putem automatiziranog zaključivanja i integracije alata; aplikacije za pretvorbu sustava u glas, gdje softver generira govorne upute na temelju kontekstualnih podataka; i sustave za prevođenje glasa u glas, koji omogućuju višejezičnu komunikaciju u stvarnom vremenu između govornika.
GPT-Realtime-2 uvodi dodatna arhitektonska poboljšanja za produkcijsku upotrebu. To uključuje dulje kontekstne prozore proširene na 128 tisuća tokena, poboljšano ponašanje oporavka tijekom prekida ili pogrešaka, paralelno izvršavanje alata s transparentnim povratnim informacijama i kontroliranije podešavanje tona ovisno o kontekstu razgovora. Razvojni programeri također mogu fino podesiti razine zaključivanja kako bi uravnotežili brzinu i složenost na temelju potreba aplikacije.
Referentne vrijednosti performansi koje navodi OpenAI pokazuju poboljšane rezultate u zadacima zaključivanja temeljenom na zvuku i praćenja instrukcija u usporedbi s prethodnim iteracijama svojih modela u stvarnom vremenu. Sustav također pokazuje jače rukovanje terminologijom specifičnom za domenu i stabilnije ponašanje u višestrukim konverzacijskim okruženjima.
Izdanje također uključuje sigurnosne mehanizme, uključujući praćenje u stvarnom vremenu i klasifikaciju sadržaja unutar aktivnih sesija, uz kontrole na razini programera za dodatne zaštitne mjere. Modeli su dostupni putem Realtime API-ja i pozicionirani su za implementaciju u poslovnim, potrošačkim i programerskim aplikacijama, s cijenama strukturiranima na temelju metrike obrade zvuka temeljene na korištenju.
Uvođenje GPT-Realtime-2 i njegovi prateći modeli odražavaju širi pomak prema računalnim sustavima temeljenim na glasu sposobnim za rasuđivanje, prevođenje i transkripciju u stvarnom vremenu, s ciljem da govorna interakcija sa softverom bude funkcionalnija, prilagodljivija i operativno sposobnija.
Izjava o odricanju od odgovornosti
U skladu s Smjernice projekta povjerenja, imajte na umu da informacije navedene na ovoj stranici nemaju namjeru i ne smiju se tumačiti kao pravni, porezni, investicijski, financijski ili bilo koji drugi oblik savjeta. Važno je ulagati samo ono što si možete priuštiti izgubiti i potražiti neovisni financijski savjet ako imate bilo kakvih nedoumica. Za dodatne informacije predlažemo da pogledate odredbe i uvjete, kao i stranice za pomoć i podršku koje pruža izdavatelj ili oglašivač. MetaversePost je predan točnom, nepristranom izvješćivanju, ali tržišni uvjeti podložni su promjenama bez prethodne najave.
O autoru
Alisa, predana novinarka u MPost, specijaliziran za kriptovalute, umjetnu inteligenciju, ulaganja i široko područje Web3. S oštrim okom za nove trendove i tehnologije, ona pruža sveobuhvatnu pokrivenost kako bi informirala i uključila čitatelje u krajolik digitalnih financija koji se neprestano razvija.
Više članaka
Alisa, predana novinarka u MPost, specijaliziran za kriptovalute, umjetnu inteligenciju, ulaganja i široko područje Web3. S oštrim okom za nove trendove i tehnologije, ona pruža sveobuhvatnu pokrivenost kako bi informirala i uključila čitatelje u krajolik digitalnih financija koji se neprestano razvija.



