Nyhetsrapport Teknologi
May 08, 2026

Nytt OpenAI Ljudmodeller driver röstassistenter i realtid med flerspråkig översättning och streamingintelligens

I korthet

OpenAI frigörs GPT-Realtime-2, Translate och Whisper-modeller, som utökar realtidsröst-AI med resonemang, översättning och transkription för avancerade konversationsapplikationer.

Nytt OpenAI Ljudmodeller driver röstassistenter i realtid med flerspråkig översättning och streamingintelligens

OpenAI tillkännagav en ny uppsättning ljudmodeller inom sitt API-ekosystem, vilket markerar en expansion av realtidsröstfunktioner för utvecklare och AI-drivna applikationer. Utgåvan inkluderar GPT-Realtid-2, GPT-Realtidsöversättning, och GPT-Realtime-Whisper, var och en utformad för att möjliggöra mer avancerade, responsiva och kontextmedvetna röstinteraktioner inom en rad olika användningsområden.

GPT-Realtime-2 positioneras som företagets hittills mest avancerade röstmodell och introducerar GPT-5-klassens resonemang till live-ljudkonversationer. Modellen är utformad för att hantera komplexa användarförfrågningar, upprätthålla kontextuell kontinuitet och stödja flerstegsresonemang vid interaktion i realtid. Den är avsedd för applikationer där röstagenter inte bara måste svara snabbt utan också tolka avsikt, hantera avbrott och utföra uppgifter genom integrerad verktygsanvändning.

Vid sidan av det, GPT-Realtime-Translate möjliggör live-talöversättning från fler än 70 inmatningsspråk till 13 utmatningsspråk. Systemet är byggt för att upprätthålla konversationsflödet samtidigt som det bevarar mening och timing, vilket gör att talare kan kommunicera på olika språk utan märkbara fördröjningar. Denna funktion är inriktad på global kundsupport, utbildning, resor och gränsöverskridande kommunikationstjänster.

Den tredje modellen, GPT-Realtime-Whisper, fokuserar på strömmande transkription av tal till text. Den tillhandahåller kontinuerlig transkription med låg latens medan användare talar, vilket möjliggör textning i realtid, livedokumentation och omedelbar nedströmsbearbetning av talat innehåll. Modellen är utformad för miljöer där snabb omvandling av tal till text krävs, såsom möten, medieutsändningar och företagsarbetsflöden.

OpenAI beskrev den kombinerade utgåvan som ett steg mot röstgränssnitt som går bortom grundläggande kommando- och svarssystem. Istället för att bara känna igen tal och generera svar är modellerna avsedda att stödja kontinuerligt resonemang, översättning, transkription och utförande av åtgärder inom ett enda konversationsflöde. Målet är att möjliggöra röstbaserade system som kan fungera mer som interaktiva assistenter som kan slutföra uppgifter samtidigt som de upprätthåller naturlig dialog.

GPT-Realtime-2 förbättrar röst-AI-arkitekturen med röst-till-handling-system och utökade kontextfönster

Företaget lyfte fram flera nya designmönster som möjliggörs av tekniken. Dessa inkluderar röst-till-handling-system, där användare kan beskriva uppgifter som utförs genom automatiserat resonemang och verktygsintegration; system-till-röst-applikationer, där programvara genererar talad vägledning baserad på kontextuell data; och röst-till-röst-översättningssystem, som möjliggör flerspråkig kommunikation i realtid mellan talare.

GPT-Realtime-2 introducerar ytterligare arkitekturförbättringar för produktionsanvändning. Dessa inkluderar längre kontextfönster utökade till 128 000 tokens, förbättrat återställningsbeteende vid avbrott eller fel, parallell verktygskörning med transparent feedback och mer kontrollerbar tonjustering beroende på konversationskontext. Utvecklare kan också finjustera resonemangsnivåer för att balansera hastighet och komplexitet baserat på applikationens behov.

Prestandariktmärken som citeras av OpenAI indikerar förbättrade resultat i ljudbaserade resonemang och instruktioner-följande uppgifter jämfört med tidigare iterationer av dess realtidsmodeller. Systemet uppvisar också starkare hantering av domänspecifik terminologi och mer stabilt beteende i konversationsmiljöer med flera varv.

Versionen innehåller även säkerhetsmekanismer, inklusive realtidsövervakning och innehållsklassificering inom aktiva sessioner, tillsammans med kontroller på utvecklarnivå för ytterligare skydd. Modellerna är tillgängliga via Realtime API och är positionerade för distribution i företags-, konsument- och utvecklarriktade applikationer, med prissättning strukturerad på användningsbaserade ljudbehandlingsmått.

Införandet av GPT-Realtime-2 och dess tillhörande modeller återspeglar ett bredare skifte mot röstbaserade datorsystem som kan resonera, översätta och transkribera i realtid, i syfte att göra talad interaktion med programvara mer funktionell, anpassningsbar och operativt kapabel.

Ansvarsfriskrivning

I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.

Om författaren

Alisa, en engagerad journalist på MPost, specialiserar sig på krypto, AI, investeringar och det expansiva området av Web3. Med ett skarpt öga för nya trender och tekniker levererar hon omfattande täckning för att informera och engagera läsare i det ständigt föränderliga landskapet för digital ekonomi.

fler artiklar
Alisa Davidson
Alisa Davidson

Alisa, en engagerad journalist på MPost, specialiserar sig på krypto, AI, investeringar och det expansiva området av Web3. Med ett skarpt öga för nya trender och tekniker levererar hon omfattande täckning för att informera och engagera läsare i det ständigt föränderliga landskapet för digital ekonomi.

Hot Stories
Gå med i vårt nyhetsbrev.
Senaste nytt

Hur Minmax bygger den professionella AI-handelsterminalen. Förutsägelsemarknaderna saknas fortfarande år 2026.

Minmax bearbetade volymen på ungefär 100 000 dollar under de tre första dagarna i juni, varav det mesta genom ...

Lär dig mer

Lugnet före Solana-stormen: Vad diagram, valar och signaler på kedjan säger nu

Solana har visat starka resultat, drivet av ökande implementering, institutionellt intresse och viktiga partnerskap, samtidigt som den står inför potentiella ...

Lär dig mer
Läs mer
Läs mer
Gate-uppdatering: Från råvaruterminer till VM-prognoser — Gate rapporterar tillväxt på alla fronter
Smälta Nyhetsrapport Teknologi
Gate-uppdatering: Från råvaruterminer till VM-prognoser — Gate rapporterar tillväxt på alla fronter
Juni 12, 2026
Glassnode: Bitcoin-optionsmarknaden visar att den initiala utförsäljningschocken har absorberats
Marknader Nyhetsrapport Teknologi
Glassnode: Bitcoin-optionsmarknaden visar att den initiala utförsäljningschocken har absorberats
Juni 12, 2026
Sponsorskapet är implementeringen: Sport och den nya logiken bakom AI-integration
Yttrande Livsstil Teknologi
Sponsorskapet är implementeringen: Sport och den nya logiken bakom AI-integration
Juni 12, 2026
Morgan Stanley, Visa och Flutterwave: Kryptopartnerskap från och med den andra veckan i juni
företag Nyhetsrapport Teknologi
Morgan Stanley, Visa och Flutterwave: Kryptopartnerskap från och med den andra veckan i juni
Juni 12, 2026