NOUVEAU OpenAI Les modèles audio alimentent les assistants vocaux en temps réel grâce à la traduction multilingue et à l'intelligence du streaming.
En bref
OpenAI libéré GPT-Les modèles Realtime-2, Translate et Whisper étendent l'IA vocale en temps réel avec le raisonnement, la traduction et la transcription pour des applications conversationnelles avancées.

OpenAI a annoncé un nouvel ensemble de modèles audio au sein de son écosystème d'API, marquant une expansion des capacités vocales en temps réel pour les développeurs et les applications basées sur l'IA. Cette version comprend GPT-Temps réel-2, GPT-Traduction en temps réel, et GPT-Realtime-Whisper, chacun conçu pour permettre des interactions vocales plus avancées, réactives et contextuelles dans divers cas d'utilisation.
GPT-Realtime-2 est présenté comme le modèle vocal le plus avancé de l'entreprise à ce jour, introduisant GPT-5Ce modèle permet d'intégrer un raisonnement de classe dans des conversations audio en direct. Il est conçu pour gérer des requêtes utilisateur complexes, maintenir la continuité contextuelle et prendre en charge un raisonnement en plusieurs étapes lors d'interactions en temps réel. Il est destiné aux applications où les agents vocaux doivent non seulement répondre rapidement, mais aussi interpréter les intentions, gérer les interruptions et exécuter des tâches grâce à l'utilisation d'outils intégrés.
A ses côtés, GPTLa traduction en temps réel permet la traduction vocale instantanée depuis plus de 70 langues sources vers 13 langues de sortie. Le système est conçu pour maintenir la fluidité de la conversation tout en préservant le sens et le rythme, permettant ainsi aux locuteurs de communiquer dans différentes langues sans décalage perceptible. Cette fonctionnalité est destinée aux services d'assistance client internationaux, à l'éducation, aux voyages et aux communications transfrontalières.
Le troisième modèle, GPTRealtime Whisper se concentre sur la transcription en continu de la parole en texte. Il assure une transcription fluide et à faible latence pendant que les utilisateurs parlent, permettant ainsi le sous-titrage en temps réel, la documentation en direct et le traitement immédiat du contenu oral. Ce modèle est conçu pour les environnements nécessitant une conversion rapide de la parole en texte, tels que les réunions, les diffusions multimédias et les processus métiers.
OpenAI Cette version combinée est présentée comme une avancée vers des interfaces vocales dépassant les simples systèmes de commande et de réponse. Au lieu de se contenter de reconnaître la parole et de générer des réponses, les modèles visent à prendre en charge le raisonnement continu, la traduction, la transcription et l'exécution d'actions au sein d'une même conversation. L'objectif est de permettre la création de systèmes vocaux fonctionnant davantage comme des assistants interactifs capables d'accomplir des tâches tout en maintenant un dialogue naturel.
GPTRealtime-2 fait progresser l'architecture de l'IA vocale grâce à des systèmes de conversion voix-action et des fenêtres de contexte étendues.
L'entreprise a mis en lumière plusieurs modèles de conception émergents rendus possibles par cette technologie. Parmi ceux-ci figurent les systèmes de commande vocale, où les utilisateurs peuvent décrire des tâches exécutées grâce à un raisonnement automatisé et à l'intégration d'outils ; les applications de synthèse vocale, où un logiciel génère des instructions vocales à partir de données contextuelles ; et les systèmes de traduction vocale, qui permettent une communication multilingue en temps réel entre les locuteurs.
GPTRealtime-2 introduit des améliorations architecturales supplémentaires pour une utilisation en production. Parmi celles-ci : des fenêtres de contexte plus longues (jusqu’à 128 000 jetons), une meilleure gestion des interruptions et des erreurs, l’exécution parallèle des outils avec un retour d’information transparent et un ajustement du ton plus précis en fonction du contexte conversationnel. Les développeurs peuvent également affiner les niveaux de raisonnement afin d’optimiser la vitesse et la complexité selon les besoins de l’application.
Références de performance citées par OpenAI Les résultats obtenus avec ce système s'améliorent par rapport aux versions précédentes de ses modèles temps réel, notamment en matière de raisonnement audio et de suivi d'instructions. Il gère également mieux la terminologie spécifique au domaine et présente un comportement plus stable dans les conversations à plusieurs tours.
Cette version intègre également des mécanismes de sécurité, notamment la surveillance en temps réel et la classification du contenu au sein des sessions actives, ainsi que des contrôles destinés aux développeurs pour une protection renforcée. Les modèles sont disponibles via l'API Realtime et conçus pour être déployés dans des applications d'entreprise, grand public et destinées aux développeurs, avec une tarification basée sur les performances de traitement audio.
L’introduction des GPT-Realtime-2 et ses modèles associés reflètent une évolution plus large vers des systèmes informatiques vocaux capables de raisonner, de traduire et de transcrire en temps réel, dans le but de rendre l'interaction vocale avec les logiciels plus fonctionnelle, adaptative et opérationnelle.
Clause de non-responsabilité
En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.
A propos de l'auteur
Alisa, journaliste dévouée au MPost, se spécialise dans les cryptomonnaies, l'IA, les investissements et le vaste domaine de Web3. Avec un œil attentif sur les tendances et technologies émergentes, elle propose une couverture complète pour informer et impliquer les lecteurs dans le paysage en constante évolution de la finance numérique.
Plus d'articles
Alisa, journaliste dévouée au MPost, se spécialise dans les cryptomonnaies, l'IA, les investissements et le vaste domaine de Web3. Avec un œil attentif sur les tendances et technologies émergentes, elle propose une couverture complète pour informer et impliquer les lecteurs dans le paysage en constante évolution de la finance numérique.



