Nieuwe OpenAI Audiomodellen zorgen voor realtime spraakassistenten met meertalige vertaling en streamingintelligentie.
In het kort
OpenAI uitgebracht GPT-Realtime-2, Translate en Whisper-modellen, die realtime spraak-AI uitbreiden met redenering, vertaling en transcriptie voor geavanceerde conversatietoepassingen.

OpenAI heeft een nieuwe reeks audiomodellen binnen zijn API-ecosysteem aangekondigd, waarmee de mogelijkheden voor realtime spraak voor ontwikkelaars en AI-gestuurde applicaties worden uitgebreid. De release omvat: GPT-Realtime-2, GPT-Realtime-vertaling, en GPT-Realtime-Whisper, beide ontworpen om geavanceerdere, responsievere en contextbewuste spraakinteracties mogelijk te maken voor uiteenlopende toepassingen.
GPT-Realtime-2 wordt gepositioneerd als het meest geavanceerde spraakmodel van het bedrijf tot nu toe en introduceert GPT-5-klasse redenering in live audiogesprekken. Het model is ontworpen om complexe gebruikersverzoeken af te handelen, contextuele continuïteit te behouden en redenering in meerdere stappen te ondersteunen tijdens realtime interactie. Het is bedoeld voor toepassingen waarbij spraakagenten niet alleen snel moeten reageren, maar ook intentie moeten interpreteren, onderbrekingen moeten beheren en taken moeten uitvoeren door middel van geïntegreerd gebruik van tools.
Ernaast, GPT-Realtime-Translate maakt live spraakvertaling mogelijk vanuit meer dan 70 invoertalen naar 13 uitvoertalen. Het systeem is ontworpen om de gespreksflow te behouden en tegelijkertijd de betekenis en timing te waarborgen, waardoor sprekers in verschillende talen kunnen communiceren zonder merkbare vertragingen. Deze functionaliteit is gericht op wereldwijde klantenservice, onderwijs, reizen en grensoverschrijdende communicatiediensten.
Het derde model, GPT-Realtime-Whisper richt zich op streaming spraak-naar-teksttranscriptie. Het biedt continue transcriptie met lage latentie terwijl gebruikers spreken, waardoor realtime ondertiteling, live documentatie en onmiddellijke verwerking van gesproken content mogelijk zijn. Het model is ontworpen voor omgevingen waar snelle conversie van spraak naar tekst vereist is, zoals vergaderingen, media-uitzendingen en bedrijfsworkflows.
OpenAI De gecombineerde release werd omschreven als een stap richting spraakinterfaces die verder gaan dan eenvoudige commando-en-antwoordsystemen. In plaats van alleen spraak te herkennen en antwoorden te genereren, zijn de modellen bedoeld om continu redeneren, vertalen, transcriberen en acties uitvoeren binnen één gespreksstroom te ondersteunen. Het doel is om spraakgestuurde systemen mogelijk te maken die meer functioneren als interactieve assistenten die taken kunnen voltooien met behoud van een natuurlijke dialoog.
GPT-Realtime-2 verbetert de architectuur van spraak-AI met spraak-naar-actie-systemen en uitgebreidere contextvensters
Het bedrijf benadrukte verschillende opkomende ontwerppatronen die door de technologie mogelijk worden gemaakt. Deze omvatten spraak-naar-actie-systemen, waarbij gebruikers taken kunnen beschrijven die vervolgens worden uitgevoerd door middel van geautomatiseerde redenering en toolintegratie; systemen-naar-spraak-toepassingen, waarbij software gesproken instructies genereert op basis van contextuele gegevens; en spraak-naar-spraak-vertalingssystemen, die realtime meertalige communicatie tussen sprekers mogelijk maken.
GPT-Realtime-2 introduceert extra architectonische verbeteringen voor gebruik in productieomgevingen. Deze omvatten langere contextvensters, uitgebreid tot 128 tokens, verbeterd herstelgedrag bij onderbrekingen of fouten, parallelle uitvoering van tools met transparante feedback en een betere controle over de toon, afhankelijk van de gesprekscontext. Ontwikkelaars kunnen ook de redeneerniveaus nauwkeurig afstemmen om snelheid en complexiteit in balans te brengen op basis van de behoeften van de applicatie.
Prestatiebenchmarks aangehaald door OpenAI Het systeem laat verbeterde resultaten zien bij taken voor redeneren op basis van audio en het opvolgen van instructies, vergeleken met eerdere versies van de realtime modellen. Het systeem verwerkt ook domeinspecifieke terminologie beter en vertoont stabieler gedrag in gesprekken die meerdere beurten duren.
De release bevat ook veiligheidsmechanismen, waaronder realtime monitoring en inhoudsclassificatie binnen actieve sessies, naast beheermogelijkheden op ontwikkelaarsniveau voor extra beveiliging. De modellen zijn beschikbaar via de Realtime API en zijn geschikt voor implementatie in bedrijfs-, consumenten- en ontwikkelaarsapplicaties, waarbij de prijsstelling is gebaseerd op gebruiksstatistieken voor audioverwerking.
De introductie van GPT-Realtime-2 en de bijbehorende modellen weerspiegelen een bredere verschuiving naar spraakgestuurde computersystemen die in staat zijn tot redeneren, vertalen en transcriberen in realtime, met als doel de gesproken interactie met software functioneler, adaptiever en operationeel krachtiger te maken.
Disclaimer
In lijn met de Richtlijnen voor vertrouwensprojectenHoud er rekening mee dat de informatie op deze pagina niet bedoeld is en niet mag worden geïnterpreteerd als juridisch, fiscaal, beleggings-, financieel of enige andere vorm van advies. Het is belangrijk om alleen te beleggen wat u zich kunt veroorloven te verliezen en onafhankelijk financieel advies in te winnen als u twijfels heeft. Voor meer informatie raden wij u aan de algemene voorwaarden en de hulp- en ondersteuningspagina's van de uitgever of adverteerder te raadplegen. MetaversePost streeft naar nauwkeurige, onpartijdige berichtgeving, maar de marktomstandigheden kunnen zonder voorafgaande kennisgeving worden gewijzigd.
Over de auteur
Alisa, een toegewijd journalist bij de MPostis gespecialiseerd in crypto, AI, investeringen en het brede domein van Web3. Met een scherp oog voor opkomende trends en technologieën levert ze uitgebreide berichtgeving om lezers te informeren en te betrekken bij het steeds evoluerende landschap van digitale financiën.
Meer artikelen
Alisa, een toegewijd journalist bij de MPostis gespecialiseerd in crypto, AI, investeringen en het brede domein van Web3. Met een scherp oog voor opkomende trends en technologieën levert ze uitgebreide berichtgeving om lezers te informeren en te betrekken bij het steeds evoluerende landschap van digitale financiën.



