Nyheds rapport Teknologier
Maj 08, 2026

Ny OpenAI Lydmodeller driver stemmeassistenter i realtid med flersproget oversættelse og streamingintelligens

Kort sagt

OpenAI frigivet GPT-Realtime-2, Translate og Whisper-modeller, der udvider realtids-stemme-AI med ræsonnement, oversættelse og transskription til avancerede samtaleapplikationer.

Ny OpenAI Lydmodeller driver stemmeassistenter i realtid med flersproget oversættelse og streamingintelligens

OpenAI annoncerede et nyt sæt lydmodeller inden for sit API-økosystem, hvilket markerer en udvidelse af realtidstalefunktioner for udviklere og AI-drevne applikationer. Udgivelsen inkluderer GPT-Realtid-2, GPT-Realtidsoversættelse, og GPT-Realtime-Whisper, der hver især er designet til at muliggøre mere avancerede, responsive og kontekstbevidste stemmeinteraktioner på tværs af en række anvendelsesscenarier.

GPT-Realtime-2 er positioneret som virksomhedens hidtil mest avancerede stemmemodel og introducerer GPT-5-klasse-ræsonnement til live lydsamtaler. Modellen er designet til at håndtere komplekse brugeranmodninger, opretholde kontekstuel kontinuitet og understøtte flertrinsræsonnement under interaktion i realtid. Den er beregnet til applikationer, hvor stemmeagenter ikke kun skal reagere hurtigt, men også fortolke intention, håndtere afbrydelser og udføre opgaver gennem integreret værktøjsbrug.

Ved siden af det, GPT-Realtime-Translate muliggør live taleoversættelse på tværs af mere end 70 inputsprog til 13 outputsprog. Systemet er bygget til at opretholde samtaleflowet, samtidig med at det bevarer mening og timing, hvilket giver talere mulighed for at kommunikere på forskellige sprog uden mærkbare forsinkelser. Denne funktion er målrettet global kundesupport, uddannelse, rejser og grænseoverskridende kommunikationstjenester.

Den tredje model, GPT-Realtime-Whisper fokuserer på streaming af tale-til-tekst-transkription. Den leverer kontinuerlig transkription med lav latenstid, mens brugerne taler, hvilket muliggør undertekster i realtid, live-dokumentation og øjeblikkelig downstream-behandling af talt indhold. Modellen er designet til miljøer, hvor hurtig konvertering af tale til tekst er nødvendig, såsom møder, medieudsendelser og virksomhedsarbejdsgange.

OpenAI beskrev den kombinerede udgivelse som et skridt i retning af stemmegrænseflader, der går ud over grundlæggende kommando-og-svar-systemer. I stedet for blot at genkende tale og generere svar, er modellerne beregnet til at understøtte kontinuerlig ræsonnement, oversættelse, transskription og handlingsudførelse inden for et enkelt samtaleflow. Målet er at muliggøre stemmebaserede systemer, der kan fungere mere som interaktive assistenter, der er i stand til at udføre opgaver, samtidig med at de opretholder naturlig dialog.

GPT-Realtime-2 forbedrer stemme-AI-arkitekturen med stemme-til-handling-systemer og udvidede kontekstvinduer

Virksomheden fremhævede adskillige nye designmønstre, som teknologien muliggør. Disse omfatter stemme-til-handling-systemer, hvor brugerne kan beskrive opgaver, der udføres gennem automatiseret ræsonnement og værktøjsintegration; system-til-stemme-applikationer, hvor software genererer talt vejledning baseret på kontekstuelle data; og stemme-til-stemme-oversættelsessystemer, som muliggør flersproget kommunikation i realtid mellem talere.

GPT-Realtime-2 introducerer yderligere arkitektoniske forbedringer til produktionsbrug. Disse inkluderer længere kontekstvinduer udvidet til 128K tokens, forbedret gendannelsesadfærd under afbrydelser eller fejl, parallel værktøjsudførelse med transparent feedback og mere kontrollerbar tonejustering afhængigt af samtalekontekst. Udviklere kan også finjustere ræsonnementniveauer for at balancere hastighed og kompleksitet baseret på applikationens behov.

Præstationsbenchmarks citeret af OpenAI indikerer forbedrede resultater i audiobaseret ræsonnement og instruktioner-følgende opgaver sammenlignet med tidligere iterationer af dets realtidsmodeller. Systemet demonstrerer også stærkere håndtering af domænespecifik terminologi og mere stabil adfærd i samtalesammenhænge med flere vendinger.

Udgivelsen indeholder også sikkerhedsmekanismer, herunder overvågning i realtid og indholdsklassificering i aktive sessioner, sammen med kontroller på udviklerniveau for yderligere sikkerhedsforanstaltninger. Modellerne er tilgængelige via Realtime API'en og er positioneret til implementering på tværs af virksomheds-, forbruger- og udviklervendte applikationer, med priser struktureret på brugsbaserede lydbehandlingsmålinger.

Indførelsen af GPT-Realtime-2 og de tilhørende modeller afspejler et bredere skift mod stemmebaserede computersystemer, der er i stand til at ræsonnere, oversætte og transskribere i realtid, med det formål at gøre talt interaktion med software mere funktionel, adaptiv og operationel.

Ansvarsfraskrivelse

I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.

Om forfatteren

Alisa, en dedikeret journalist ved MPost, specialiserer sig i krypto, AI, investeringer og det omfattende område af Web3. Med et skarpt øje for nye trends og teknologier leverer hun omfattende dækning for at informere og engagere læserne i det stadigt udviklende landskab af digital finans.

Flere artikler
Alisa Davidson
Alisa Davidson

Alisa, en dedikeret journalist ved MPost, specialiserer sig i krypto, AI, investeringer og det omfattende område af Web3. Med et skarpt øje for nye trends og teknologier leverer hun omfattende dækning for at informere og engagere læserne i det stadigt udviklende landskab af digital finans.

Hot Stories
Tilmeld dig vores nyhedsbrev.
Seneste Nyheder

Stilheden før Solana-stormen: Hvad diagrammer, hvaler og signaler på kæden siger nu

Solana har vist stærke resultater, drevet af stigende implementering, institutionel interesse og vigtige partnerskaber, samtidig med at den står over for potentielle ...

Vide mere

Krypto i april 2025: Vigtigste tendenser, ændringer og hvad der kommer bagefter

I april 2025 fokuserede kryptomarkedet på at styrke kerneinfrastrukturen, hvor Ethereum forberedte sig på Pectra ...

Vide mere
Læs mere
Læs mere
Pfizer integrerer Chai Discoverys AI-platform for at fremme og skalere molekylært lægemiddeldesign
Nyheds rapport Teknologier
Pfizer integrerer Chai Discoverys AI-platform for at fremme og skalere molekylært lægemiddeldesign
5. Juni, 2026
Gate-opdatering: Udvidede lageråbningstider, Antropisk Airdrops, og en rekordstor staking-uge
Forretning Nyheds rapport Teknologier
Gate-opdatering: Udvidede lageråbningstider, Antropisk Airdrops, og en rekordstor staking-uge
5. Juni, 2026
Strategiens BTC-salg rejser spørgsmål om gearet statsobligationsmodel, siger Grayscale
Forretning Nyheds rapport Teknologier
Strategiens BTC-salg rejser spørgsmål om gearet statsobligationsmodel, siger Grayscale
5. Juni, 2026
8 platforme, der skaber App Store-oplevelsen for Web3 I 2026
Toplister Teknologier
8 platforme, der skaber App Store-oplevelsen for Web3 I 2026
5. Juni, 2026