Novice Tehnologija
Maj 08, 2026

Novo OpenAI Zvočni modeli poganjajo glasovne pomočnike v realnem času z večjezičnim prevajanjem in inteligenco pretakanja

Na kratko

OpenAI sprosti GPT-Modeli Realtime-2, Translate in Whisper, ki razširjajo umetno inteligenco v realnem času z razmišljanjem, prevajanjem in transkripcijo za napredne pogovorne aplikacije.

Novo OpenAI Zvočni modeli poganjajo glasovne pomočnike v realnem času z večjezičnim prevajanjem in inteligenco pretakanja

OpenAI je napovedal nov nabor zvočnih modelov znotraj svojega ekosistema API, kar pomeni širitev zmogljivosti glasovne komunikacije v realnem času za razvijalce in aplikacije, ki jih poganja umetna inteligenca. Izdaja vključuje GPT-Realni čas-2, GPT-Prevajanje v realnem času in GPT-Realtime-Whisper, vsak od njih zasnovan tako, da omogoča naprednejše, odzivnejše in kontekstualno ozaveščene glasovne interakcije v različnih primerih uporabe.

GPT-Realtime-2 je pozicioniran kot najnaprednejši glasovni model podjetja doslej in predstavlja GPT-5-razredne sklepe pretvorite v pogovore v živo. Model je zasnovan za obravnavo kompleksnih uporabniških zahtev, ohranjanje kontekstualne kontinuitete in podporo večstopenjskemu sklepanju med interakcijo v realnem času. Namenjen je aplikacijam, kjer se morajo glasovni agenti ne le hitro odzvati, temveč tudi interpretirati namero, upravljati prekinitve in izvajati naloge z uporabo integriranih orodij.

Poleg tega, GPT-Realtime-Translate omogoča prevajanje govora v živo iz več kot 70 vhodnih jezikov v 13 izhodnih jezikov. Sistem je zasnovan tako, da ohranja tok pogovora, hkrati pa ohranja pomen in čas, kar govorcem omogoča komunikacijo v različnih jezikih brez opaznih zamud. Ta zmogljivost je namenjena globalni podpori strankam, izobraževanju, potovanjem in čezmejnim komunikacijskim storitvam.

Tretji model, GPT-Realtime-Whisper se osredotoča na pretakanje govora v besedilo. Zagotavlja neprekinjeno prepisovanje z nizko zakasnitvijo, medtem ko uporabniki govorijo, kar omogoča podnapise v realnem času, dokumentacijo v živo in takojšnjo obdelavo govorjene vsebine. Model je zasnovan za okolja, kjer je potrebna hitra pretvorba govora v besedilo, kot so sestanki, medijske oddaje in poslovni delovni procesi.

OpenAI je združeno izdajo opisal kot korak k glasovnim vmesnikom, ki presegajo osnovne sisteme ukazovanja in odzivanja. Namesto preprostega prepoznavanja govora in ustvarjanja odgovorov so modeli namenjeni podpori neprekinjenega sklepanja, prevajanja, transkripcije in izvajanja dejanj znotraj enega samega pogovornega toka. Cilj je omogočiti glasovne sisteme, ki lahko delujejo bolj kot interaktivni pomočniki, sposobni opravljati naloge, hkrati pa ohranjati naraven dialog.

GPT-Realtime-2 izboljšuje arhitekturo glasovne umetne inteligence s sistemi za pretvorbo glasu v dejanja in razširjenimi kontekstnimi okni

Podjetje je izpostavilo več novih oblikovalskih vzorcev, ki jih omogoča tehnologija. Mednje spadajo sistemi za pretvorbo glasu v dejanja, kjer lahko uporabniki opišejo naloge, ki se izvajajo z avtomatiziranim sklepanjem in integracijo orodij; aplikacije za pretvorbo sistemov v glas, kjer programska oprema ustvarja govorjeno vodenje na podlagi kontekstualnih podatkov; in sistemi za prevajanje glasu v glas, ki omogočajo večjezično komunikacijo med govorci v realnem času.

GPT-Realtime-2 uvaja dodatne arhitekturne izboljšave za produkcijsko uporabo. Te vključujejo daljša kontekstna okna, razširjena na 128 tisoč žetonov, izboljšano delovanje pri obnovi med prekinitvami ali napakami, vzporedno izvajanje orodij s preglednimi povratnimi informacijami in bolj nadzorovano prilagajanje tona glede na kontekst pogovora. Razvijalci lahko tudi natančno prilagodijo ravni sklepanja, da uravnotežijo hitrost in kompleksnost glede na potrebe aplikacije.

Merila uspešnosti, ki jih navajajo OpenAI kažejo na izboljšane rezultate pri sklepanju na podlagi zvoka in nalogah sledenja navodilom v primerjavi s prejšnjimi iteracijami modelov v realnem času. Sistem prav tako dokazuje boljše obvladovanje domensko specifične terminologije in stabilnejše delovanje v pogovornih okoljih z več izmeni.

Izdaja vključuje tudi varnostne mehanizme, vključno s spremljanjem v realnem času in razvrščanjem vsebine znotraj aktivnih sej, skupaj s kontrolami na ravni razvijalcev za dodatne zaščitne ukrepe. Modeli so na voljo prek vmesnika Realtime API in so namenjeni uvajanju v podjetniške, potrošniške in razvijalske aplikacije, cene pa so strukturirane glede na metrike obdelave zvoka, ki temeljijo na uporabi.

Uvedba GPT-Realtime-2 in njegovi spremljajoči modeli odražajo širši premik k računalniškim sistemom, ki temeljijo na glasu in so sposobni sklepati, prevajati in prepisovati v realnem času, s ciljem, da bi bila govorjena interakcija s programsko opremo bolj funkcionalna, prilagodljiva in operativno zmogljiva.

Zavrnitev odgovornosti

V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.

O avtorju

Alisa, predana novinarka pri MPost, specializiran za kriptovalute, umetno inteligenco, naložbe in široko področje Web3. Z ostrim očesom za nastajajoče trende in tehnologije zagotavlja celovito pokritost za informiranje in vključevanje bralcev v nenehno razvijajočo se pokrajino digitalnih financ.

več člankov
Alisa Davidson
Alisa Davidson

Alisa, predana novinarka pri MPost, specializiran za kriptovalute, umetno inteligenco, naložbe in široko področje Web3. Z ostrim očesom za nastajajoče trende in tehnologije zagotavlja celovito pokritost za informiranje in vključevanje bralcev v nenehno razvijajočo se pokrajino digitalnih financ.

Hot Stories
Pridružite se našemu glasilu.
Zadnje novice

Kako Minmax gradi profesionalni terminal za trgovanje z umetno inteligenco, ki napoveduje, da trgi leta 2026 še vedno primanjkujejo

Minmax je v prvih treh dneh junija obdelal približno 100,000 dolarjev prometa, večinoma prek ...

Več o tem

Zatišje pred nevihto Solana: Kaj zdaj sporočajo grafikoni, kiti in signali na verigi

Solana je pokazala močno uspešnost, ki jo je spodbudilo vse večje sprejemanje, institucionalno zanimanje in ključna partnerstva, hkrati pa se sooča s potencialnimi ...

Več o tem
Preberi več
Preberi več
Razprava o dnu Bitcoina: Galaxy, NYDIG in Standard Chartered se razlikujejo, vendar Bitwise pravi, da je pravo vprašanje rast tečajev.
Prisotnost Novice Tehnologija
Razprava o dnu Bitcoina: Galaxy, NYDIG in Standard Chartered se razlikujejo, vendar Bitwise pravi, da je pravo vprašanje rast tečajev.
Junij 16, 2026
Dolgoročni imetniki bitcoinov dosegajo rekordni delež ponudbe, medtem ko trgi čakajo na prvo odločitev FOMC-ja Warsha
Prisotnost Novice Tehnologija
Dolgoročni imetniki bitcoinov dosegajo rekordni delež ponudbe, medtem ko trgi čakajo na prvo odločitev FOMC-ja Warsha
Junij 16, 2026
Inveniam bo prevzel MANTRO v okviru širitve infrastrukture za umetno inteligenco, RWA in institucionalno veriženje blokov
Novice Tehnologija
Inveniam bo prevzel MANTRO v okviru širitve infrastrukture za umetno inteligenco, RWA in institucionalno veriženje blokov
Junij 16, 2026
Inco Lightning se lansira na bazi in širi zasebnost pametnih pogodb s šifriranim računanjem in zaščito podatkov
Novice Tehnologija
Inco Lightning se lansira na bazi in širi zasebnost pametnih pogodb s šifriranim računanjem in zaščito podatkov
Junij 16, 2026
CRYPTOMERIA LABS PTE. LTD.