Rapport de nouvelles Technologie
08 mai 2026

NOUVEAU OpenAI Les modèles audio alimentent les assistants vocaux en temps réel grâce à la traduction multilingue et à l'intelligence du streaming.

En bref

OpenAI libéré GPT-Les modèles Realtime-2, Translate et Whisper étendent l'IA vocale en temps réel avec le raisonnement, la traduction et la transcription pour des applications conversationnelles avancées.

NOUVEAU OpenAI Les modèles audio alimentent les assistants vocaux en temps réel grâce à la traduction multilingue et à l'intelligence du streaming.

OpenAI a annoncé un nouvel ensemble de modèles audio au sein de son écosystème d'API, marquant une expansion des capacités vocales en temps réel pour les développeurs et les applications basées sur l'IA. Cette version comprend GPT-Temps réel-2, GPT-Traduction en temps réel, et GPT-Realtime-Whisper, chacun conçu pour permettre des interactions vocales plus avancées, réactives et contextuelles dans divers cas d'utilisation.

GPT-Realtime-2 est présenté comme le modèle vocal le plus avancé de l'entreprise à ce jour, introduisant GPT-5Ce modèle permet d'intégrer un raisonnement de classe dans des conversations audio en direct. Il est conçu pour gérer des requêtes utilisateur complexes, maintenir la continuité contextuelle et prendre en charge un raisonnement en plusieurs étapes lors d'interactions en temps réel. Il est destiné aux applications où les agents vocaux doivent non seulement répondre rapidement, mais aussi interpréter les intentions, gérer les interruptions et exécuter des tâches grâce à l'utilisation d'outils intégrés.

A ses côtés, GPTLa traduction en temps réel permet la traduction vocale instantanée depuis plus de 70 langues sources vers 13 langues de sortie. Le système est conçu pour maintenir la fluidité de la conversation tout en préservant le sens et le rythme, permettant ainsi aux locuteurs de communiquer dans différentes langues sans décalage perceptible. Cette fonctionnalité est destinée aux services d'assistance client internationaux, à l'éducation, aux voyages et aux communications transfrontalières.

Le troisième modèle, GPTRealtime Whisper se concentre sur la transcription en continu de la parole en texte. Il assure une transcription fluide et à faible latence pendant que les utilisateurs parlent, permettant ainsi le sous-titrage en temps réel, la documentation en direct et le traitement immédiat du contenu oral. Ce modèle est conçu pour les environnements nécessitant une conversion rapide de la parole en texte, tels que les réunions, les diffusions multimédias et les processus métiers.

OpenAI Cette version combinée est présentée comme une avancée vers des interfaces vocales dépassant les simples systèmes de commande et de réponse. Au lieu de se contenter de reconnaître la parole et de générer des réponses, les modèles visent à prendre en charge le raisonnement continu, la traduction, la transcription et l'exécution d'actions au sein d'une même conversation. L'objectif est de permettre la création de systèmes vocaux fonctionnant davantage comme des assistants interactifs capables d'accomplir des tâches tout en maintenant un dialogue naturel.

GPTRealtime-2 fait progresser l'architecture de l'IA vocale grâce à des systèmes de conversion voix-action et des fenêtres de contexte étendues.

L'entreprise a mis en lumière plusieurs modèles de conception émergents rendus possibles par cette technologie. Parmi ceux-ci figurent les systèmes de commande vocale, où les utilisateurs peuvent décrire des tâches exécutées grâce à un raisonnement automatisé et à l'intégration d'outils ; les applications de synthèse vocale, où un logiciel génère des instructions vocales à partir de données contextuelles ; et les systèmes de traduction vocale, qui permettent une communication multilingue en temps réel entre les locuteurs.

GPTRealtime-2 introduit des améliorations architecturales supplémentaires pour une utilisation en production. Parmi celles-ci : des fenêtres de contexte plus longues (jusqu’à 128 000 jetons), une meilleure gestion des interruptions et des erreurs, l’exécution parallèle des outils avec un retour d’information transparent et un ajustement du ton plus précis en fonction du contexte conversationnel. Les développeurs peuvent également affiner les niveaux de raisonnement afin d’optimiser la vitesse et la complexité selon les besoins de l’application.

Références de performance citées par OpenAI Les résultats obtenus avec ce système s'améliorent par rapport aux versions précédentes de ses modèles temps réel, notamment en matière de raisonnement audio et de suivi d'instructions. Il gère également mieux la terminologie spécifique au domaine et présente un comportement plus stable dans les conversations à plusieurs tours.

Cette version intègre également des mécanismes de sécurité, notamment la surveillance en temps réel et la classification du contenu au sein des sessions actives, ainsi que des contrôles destinés aux développeurs pour une protection renforcée. Les modèles sont disponibles via l'API Realtime et conçus pour être déployés dans des applications d'entreprise, grand public et destinées aux développeurs, avec une tarification basée sur les performances de traitement audio.

L’introduction des GPT-Realtime-2 et ses modèles associés reflètent une évolution plus large vers des systèmes informatiques vocaux capables de raisonner, de traduire et de transcrire en temps réel, dans le but de rendre l'interaction vocale avec les logiciels plus fonctionnelle, adaptative et opérationnelle.

Clause de non-responsabilité

En ligne avec la Lignes directrices du projet de confiance, veuillez noter que les informations fournies sur cette page ne sont pas destinées à être et ne doivent pas être interprétées comme des conseils juridiques, fiscaux, d'investissement, financiers ou toute autre forme de conseil. Il est important d’investir uniquement ce que vous pouvez vous permettre de perdre et de demander des conseils financiers indépendants en cas de doute. Pour plus d'informations, nous vous suggérons de vous référer aux conditions générales ainsi qu'aux pages d'aide et de support mises à disposition par l'émetteur ou l'annonceur. MetaversePost s'engage à fournir des rapports précis et impartiaux, mais les conditions du marché sont susceptibles de changer sans préavis.

A propos de l'auteur

Alisa, journaliste dévouée au MPost, se spécialise dans les cryptomonnaies, l'IA, les investissements et le vaste domaine de Web3. Avec un œil attentif sur les tendances et technologies émergentes, elle propose une couverture complète pour informer et impliquer les lecteurs dans le paysage en constante évolution de la finance numérique.

Plus d'articles
Alice Davidson
Alice Davidson

Alisa, journaliste dévouée au MPost, se spécialise dans les cryptomonnaies, l'IA, les investissements et le vaste domaine de Web3. Avec un œil attentif sur les tendances et technologies émergentes, elle propose une couverture complète pour informer et impliquer les lecteurs dans le paysage en constante évolution de la finance numérique.

Hot Stories
Rejoignez notre newsletter.
Dernières actualités

Le calme avant la tempête Solana : ce que disent les cartes, les baleines et les signaux en chaîne

Solana a démontré de solides performances, portées par une adoption croissante, un intérêt institutionnel et des partenariats clés, tout en étant confrontée à un potentiel...

Savoir Plus

Cryptomonnaies en avril 2025 : tendances clés, évolutions et perspectives

En avril 2025, l'espace crypto s'est concentré sur le renforcement de l'infrastructure de base, Ethereum se préparant pour le Pectra...

Savoir Plus
En savoir plus
Lire la suite
Pfizer va intégrer la plateforme d'IA de Chai Discovery pour faire progresser et étendre la conception moléculaire de médicaments
Rapport de nouvelles Technologie
Pfizer va intégrer la plateforme d'IA de Chai Discovery pour faire progresser et étendre la conception moléculaire de médicaments
Le 5 juin 2026
Mise à jour Gate : Horaires d'ouverture prolongés, Anthropic Airdropet une semaine de paris record
Entreprise Rapport de nouvelles Technologie
Mise à jour Gate : Horaires d'ouverture prolongés, Anthropic Airdropet une semaine de paris record
Le 5 juin 2026
La vente de bitcoins par Strategy soulève des questions sur le modèle de trésorerie à effet de levier, selon Grayscale.
Entreprise Rapport de nouvelles Technologie
La vente de bitcoins par Strategy soulève des questions sur le modèle de trésorerie à effet de levier, selon Grayscale.
Le 5 juin 2026
8 plateformes qui créent l'expérience de l'App Store pour Web3 In 2026
Top Listes Technologie
8 plateformes qui créent l'expérience de l'App Store pour Web3 In 2026
Le 5 juin 2026
CRYPTOMERIA LABS PTE. LTD.