Notizie Tecnologia
08 maggio 2026

New OpenAI I modelli audio potenziano gli assistenti vocali in tempo reale con traduzione multilingue e intelligenza di streaming.

In Breve

OpenAI rilasciato GPT-Modelli Realtime-2, Translate e Whisper, che espandono l'IA vocale in tempo reale con ragionamento, traduzione e trascrizione per applicazioni conversazionali avanzate.

New OpenAI I modelli audio potenziano gli assistenti vocali in tempo reale con traduzione multilingue e intelligenza di streaming.

OpenAI ha annunciato una nuova serie di modelli audio all'interno del suo ecosistema API, segnando un'espansione delle funzionalità vocali in tempo reale per sviluppatori e applicazioni basate sull'IA. La release include GPT-Tempo reale-2, GPT-Traduzione in tempo reale e GPT-Realtime-Whisper, entrambi progettati per consentire interazioni vocali più avanzate, reattive e contestualizzate in una vasta gamma di casi d'uso.

GPT-Realtime-2 è posizionato come il modello vocale più avanzato dell'azienda fino ad oggi, introducendo GPT-5- Ragionamento di classe in conversazioni audio in tempo reale. Il modello è progettato per gestire richieste complesse degli utenti, mantenere la continuità contestuale e supportare il ragionamento a più fasi durante l'interazione in tempo reale. È pensato per applicazioni in cui gli agenti vocali non solo devono rispondere rapidamente, ma anche interpretare l'intento, gestire le interruzioni ed eseguire attività attraverso l'utilizzo di strumenti integrati.

Accanto ad esso, GPTRealtime Translate consente la traduzione vocale in tempo reale da oltre 70 lingue di input a 13 lingue di output. Il sistema è progettato per mantenere la fluidità della conversazione preservando il significato e la tempistica, permettendo agli interlocutori di comunicare in diverse lingue senza ritardi percepibili. Questa funzionalità è pensata per l'assistenza clienti globale, l'istruzione, i viaggi e i servizi di comunicazione transfrontaliera.

Il terzo modello, GPT-Realtime-Whisper si concentra sulla trascrizione in streaming del parlato in testo. Fornisce una trascrizione continua a bassa latenza mentre gli utenti parlano, consentendo sottotitoli in tempo reale, documentazione live ed elaborazione immediata del contenuto parlato. Il modello è progettato per ambienti in cui è richiesta una rapida conversione del parlato in testo, come riunioni, trasmissioni mediatiche e flussi di lavoro aziendali.

OpenAI La versione combinata è stata descritta come un passo avanti verso interfacce vocali che vanno oltre i semplici sistemi di comando e risposta. Invece di limitarsi al riconoscimento vocale e alla generazione di risposte, i modelli sono progettati per supportare il ragionamento continuo, la traduzione, la trascrizione e l'esecuzione di azioni all'interno di un unico flusso conversazionale. L'obiettivo è quello di realizzare sistemi vocali che possano funzionare più come assistenti interattivi, capaci di completare compiti mantenendo un dialogo naturale.

GPT-Realtime-2 potenzia l'architettura AI vocale con sistemi Voice-To-Action e finestre di contesto ampliate.

L'azienda ha evidenziato diversi modelli di progettazione emergenti resi possibili da questa tecnologia. Tra questi figurano i sistemi voice-to-action, in cui gli utenti possono descrivere attività che vengono eseguite tramite ragionamento automatizzato e integrazione di strumenti; le applicazioni systems-to-voice, in cui il software genera istruzioni vocali basate su dati contestuali; e i sistemi di traduzione vocale, che consentono la comunicazione multilingue in tempo reale tra gli interlocutori.

GPTRealtime-2 introduce ulteriori miglioramenti architetturali per l'utilizzo in produzione. Questi includono finestre di contesto più ampie, espanse a 128 token, un comportamento di ripristino migliorato in caso di interruzioni o errori, l'esecuzione parallela degli strumenti con feedback trasparente e una regolazione del tono più controllabile a seconda del contesto conversazionale. Gli sviluppatori possono inoltre calibrare i livelli di ragionamento per bilanciare velocità e complessità in base alle esigenze dell'applicazione.

Parametri di riferimento delle prestazioni citati da OpenAI I risultati indicano un miglioramento nelle attività di ragionamento basate sull'audio e di esecuzione delle istruzioni rispetto alle precedenti versioni dei suoi modelli in tempo reale. Il sistema dimostra inoltre una gestione più efficace della terminologia specifica del dominio e un comportamento più stabile in contesti conversazionali a più turni.

La release include anche meccanismi di sicurezza, tra cui il monitoraggio in tempo reale e la classificazione dei contenuti all'interno delle sessioni attive, oltre a controlli a livello di sviluppatore per ulteriori misure di protezione. I modelli sono disponibili tramite l'API Realtime e sono pensati per essere implementati in applicazioni aziendali, per utenti finali e per sviluppatori, con prezzi strutturati in base alle metriche di elaborazione audio utilizzate.

L'introduzione di GPTRealtime-2 e i suoi modelli correlati riflettono un più ampio cambiamento verso sistemi informatici basati sulla voce, capaci di ragionare, tradurre e trascrivere in tempo reale, con l'obiettivo di rendere l'interazione vocale con il software più funzionale, adattiva e operativamente efficiente.

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Alisa, una giornalista dedicata al MPost, è specializzato in criptovalute, IA, investimenti e nell'ampio regno di Web3. Con un occhio attento alle tendenze e alle tecnologie emergenti, offre una copertura completa per informare e coinvolgere i lettori nel panorama in continua evoluzione della finanza digitale.

Altri articoli
Alice Davidson
Alice Davidson

Alisa, una giornalista dedicata al MPost, è specializzato in criptovalute, IA, investimenti e nell'ampio regno di Web3. Con un occhio attento alle tendenze e alle tecnologie emergenti, offre una copertura completa per informare e coinvolgere i lettori nel panorama in continua evoluzione della finanza digitale.

Hot Stories
Iscriviti alla nostra newsletter.
Notizie

Come Minmax sta costruendo il terminale di trading professionale basato sull'intelligenza artificiale che i mercati di previsione ancora non possiedono nel 2026

Minmax ha gestito transazioni per un valore di circa 100,000 dollari nei primi tre giorni di giugno, la maggior parte delle quali tramite...

Per saperne di più

La calma prima della tempesta di Solana: cosa ci dicono ora grafici, balene e segnali on-chain

Solana ha dimostrato ottime performance, trainate dalla crescente adozione, dall'interesse istituzionale e da partnership chiave, affrontando al contempo potenziali ...

Per saperne di più
Scopri di più
Leggi di più
Il dibattito sul minimo storico di Bitcoin: Galaxy, NYDIG e Standard Chartered divergono, ma Bitwise afferma che il vero punto interrogativo è il potenziale di rialzo.
Mercati Notizie Tecnologia
Il dibattito sul minimo storico di Bitcoin: Galaxy, NYDIG e Standard Chartered divergono, ma Bitwise afferma che il vero punto interrogativo è il potenziale di rialzo.
16 Giugno 2026
I detentori di Bitcoin a lungo termine raggiungono una quota record di offerta mentre i mercati attendono la prima decisione del FOMC di Warsh.
Mercati Notizie Tecnologia
I detentori di Bitcoin a lungo termine raggiungono una quota record di offerta mentre i mercati attendono la prima decisione del FOMC di Warsh.
16 Giugno 2026
Inveniam acquisirà MANTRA per espandere la propria infrastruttura blockchain dedicata all'intelligenza artificiale, agli RWA (Resident Rights Association) e alle istituzioni.
Notizie Tecnologia
Inveniam acquisirà MANTRA per espandere la propria infrastruttura blockchain dedicata all'intelligenza artificiale, agli RWA (Resident Rights Association) e alle istituzioni.
16 Giugno 2026
Inco Lightning viene lanciato sulla base, ampliando la privacy degli smart contract con calcolo crittografato e protezione dei dati.
Notizie Tecnologia
Inco Lightning viene lanciato sulla base, ampliando la privacy degli smart contract con calcolo crittografato e protezione dei dati.
16 Giugno 2026
LABORATORI DI CRITTOMERIA PTE. srl.