Nytt OpenAI Ljudmodeller driver röstassistenter i realtid med flerspråkig översättning och streamingintelligens
I korthet
OpenAI frigörs GPT-Realtime-2, Translate och Whisper-modeller, som utökar realtidsröst-AI med resonemang, översättning och transkription för avancerade konversationsapplikationer.

OpenAI tillkännagav en ny uppsättning ljudmodeller inom sitt API-ekosystem, vilket markerar en expansion av realtidsröstfunktioner för utvecklare och AI-drivna applikationer. Utgåvan inkluderar GPT-Realtid-2, GPT-Realtidsöversättning, och GPT-Realtime-Whisper, var och en utformad för att möjliggöra mer avancerade, responsiva och kontextmedvetna röstinteraktioner inom en rad olika användningsområden.
GPT-Realtime-2 positioneras som företagets hittills mest avancerade röstmodell och introducerar GPT-5-klassens resonemang till live-ljudkonversationer. Modellen är utformad för att hantera komplexa användarförfrågningar, upprätthålla kontextuell kontinuitet och stödja flerstegsresonemang vid interaktion i realtid. Den är avsedd för applikationer där röstagenter inte bara måste svara snabbt utan också tolka avsikt, hantera avbrott och utföra uppgifter genom integrerad verktygsanvändning.
Vid sidan av det, GPT-Realtime-Translate möjliggör live-talöversättning från fler än 70 inmatningsspråk till 13 utmatningsspråk. Systemet är byggt för att upprätthålla konversationsflödet samtidigt som det bevarar mening och timing, vilket gör att talare kan kommunicera på olika språk utan märkbara fördröjningar. Denna funktion är inriktad på global kundsupport, utbildning, resor och gränsöverskridande kommunikationstjänster.
Den tredje modellen, GPT-Realtime-Whisper, fokuserar på strömmande transkription av tal till text. Den tillhandahåller kontinuerlig transkription med låg latens medan användare talar, vilket möjliggör textning i realtid, livedokumentation och omedelbar nedströmsbearbetning av talat innehåll. Modellen är utformad för miljöer där snabb omvandling av tal till text krävs, såsom möten, medieutsändningar och företagsarbetsflöden.
OpenAI beskrev den kombinerade utgåvan som ett steg mot röstgränssnitt som går bortom grundläggande kommando- och svarssystem. Istället för att bara känna igen tal och generera svar är modellerna avsedda att stödja kontinuerligt resonemang, översättning, transkription och utförande av åtgärder inom ett enda konversationsflöde. Målet är att möjliggöra röstbaserade system som kan fungera mer som interaktiva assistenter som kan slutföra uppgifter samtidigt som de upprätthåller naturlig dialog.
GPT-Realtime-2 förbättrar röst-AI-arkitekturen med röst-till-handling-system och utökade kontextfönster
Företaget lyfte fram flera nya designmönster som möjliggörs av tekniken. Dessa inkluderar röst-till-handling-system, där användare kan beskriva uppgifter som utförs genom automatiserat resonemang och verktygsintegration; system-till-röst-applikationer, där programvara genererar talad vägledning baserad på kontextuell data; och röst-till-röst-översättningssystem, som möjliggör flerspråkig kommunikation i realtid mellan talare.
GPT-Realtime-2 introducerar ytterligare arkitekturförbättringar för produktionsanvändning. Dessa inkluderar längre kontextfönster utökade till 128 000 tokens, förbättrat återställningsbeteende vid avbrott eller fel, parallell verktygskörning med transparent feedback och mer kontrollerbar tonjustering beroende på konversationskontext. Utvecklare kan också finjustera resonemangsnivåer för att balansera hastighet och komplexitet baserat på applikationens behov.
Prestandariktmärken som citeras av OpenAI indikerar förbättrade resultat i ljudbaserade resonemang och instruktioner-följande uppgifter jämfört med tidigare iterationer av dess realtidsmodeller. Systemet uppvisar också starkare hantering av domänspecifik terminologi och mer stabilt beteende i konversationsmiljöer med flera varv.
Versionen innehåller även säkerhetsmekanismer, inklusive realtidsövervakning och innehållsklassificering inom aktiva sessioner, tillsammans med kontroller på utvecklarnivå för ytterligare skydd. Modellerna är tillgängliga via Realtime API och är positionerade för distribution i företags-, konsument- och utvecklarriktade applikationer, med prissättning strukturerad på användningsbaserade ljudbehandlingsmått.
Införandet av GPT-Realtime-2 och dess tillhörande modeller återspeglar ett bredare skifte mot röstbaserade datorsystem som kan resonera, översätta och transkribera i realtid, i syfte att göra talad interaktion med programvara mer funktionell, anpassningsbar och operativt kapabel.
Ansvarsfriskrivning
I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.
Om författaren
Alisa, en engagerad journalist på MPost, specialiserar sig på krypto, AI, investeringar och det expansiva området av Web3. Med ett skarpt öga för nya trender och tekniker levererar hon omfattande täckning för att informera och engagera läsare i det ständigt föränderliga landskapet för digital ekonomi.
fler artiklar
Alisa, en engagerad journalist på MPost, specialiserar sig på krypto, AI, investeringar och det expansiva området av Web3. Med ett skarpt öga för nya trender och tekniker levererar hon omfattande täckning för att informera och engagera läsare i det ständigt föränderliga landskapet för digital ekonomi.



