Notizie Tecnologia
16 aprile 2026

Google presenta Gemini 3.1 Flash TTS: una nuova era di generazione vocale basata sull'intelligenza artificiale, iperrealistica e completamente controllabile.

In Breve

Google rilascia Gemini 3.1 Flash TTS, un modello avanzato di sintesi vocale con controllo, espressività e supporto multilingue migliorati per le applicazioni vocali basate sull'intelligenza artificiale.

Google presenta Gemini 3.1 Flash TTS: una nuova era di generazione vocale basata sull'intelligenza artificiale, iperrealistica e completamente controllabile.

Azienda tecnologica Google ha annunciato il rilascio di Gemini 3.1 Flash Text-to-Speech (TTS), un modello di sintesi vocale di nuova generazione progettato per migliorare la controllabilità, l'espressività e la qualità dell'output per sviluppatori, aziende e utenti finali che creano applicazioni audio basate sull'intelligenza artificiale.

Il lancio di Gemini 3.1 Flash TTS è attualmente in corso su diverse piattaforme Google. Il modello è disponibile in anteprima per gli sviluppatori tramite l'API Gemini e Google AI Studio, mentre gli utenti aziendali possono accedervi in ​​anteprima tramite Vertex AI. È inoltre in fase di introduzione l'integrazione per gli utenti di Google Workspace tramite Google Vids, ampliando la disponibilità del modello sia in ambito consumer che professionale.

Il sistema aggiornato rappresenta un passo avanti nella generazione di voci sintetiche, con Google che segnala miglioramenti misurabili in termini di naturalezza ed espressività. Secondo un benchmark indipendente condotto da Artificial Analysis, che valuta grandi quantità di dati sulle preferenze umane per i modelli vocali, Gemini 3.1 Flash TTS ha raggiunto un punteggio Elo di 1,211. La stessa valutazione colloca il modello in una categoria ad alte prestazioni, combinando un'elevata qualità del parlato con caratteristiche di costo relativamente efficienti. Il sistema supporta inoltre più di 70 lingue e include funzionalità di dialogo multi-speaker, oltre a opzioni di controllo dettagliate basate su input in linguaggio naturale.

Controlli ampliati e direzione creativa per la generazione vocale

Una caratteristica fondamentale della release è l'introduzione dei tag audio, un meccanismo che consente agli utenti di guidare l'output vocale in modo più preciso incorporando istruzioni strutturate direttamente nei prompt di testo. Questi controlli consentono di regolare il ritmo, il tono e lo stile vocale all'interno di un flusso di lavoro di generazione singola. Il sistema supporta anche la direzione a livelli, consentendo agli sviluppatori di definel contesto della scena, assegnare ruoli di parlante tramite profili audio configurabili e modificare gli attributi di erogazione sia a livello globale che a livello di frase.

Negli ambienti aziendali che utilizzano Vertex AI, questi controlli sono pensati per supportare casi d'uso di produzione più avanzati, tra cui la generazione vocale scalabile per applicazioni che richiedono voci di personaggi coerenti o sistemi di dialogo dinamici. L'integrazione include anche funzionalità di esportazione, che consentono di convertire le configurazioni generate in formati pronti per le API per la distribuzione su diverse piattaforme e servizi.

Il modello è stato concepito come adatto all'implementazione su scala globale, con prestazioni costanti in oltre 70 lingue. Questa capacità multilingue è combinata con un controllo prosodico avanzato, consentendo output vocali più localizzati e dal suono naturale in diversi contesti linguistici.

I primi riscontri da parte di sviluppatori e utenti aziendali hanno indicato una maggiore precisione nella progettazione vocale e una maggiore flessibilità nella modellazione dell'output espressivo. L'utilizzo dei tag audio è stato evidenziato come un'aggiunta significativa per la creazione di interazioni vocali più complesse, in particolare in scenari che richiedono la generazione audio basata su personaggi o narrazioni.

Tutti i contenuti audio generati tramite Gemini 3.1 Flash TTS sono dotati di tecnologia di watermarking SynthID. Questo sistema introduce un identificatore impercettibile all'interno del contenuto audio generato, consentendo il rilevamento di contenuti multimediali generati dall'IA e supportando gli sforzi volti a migliorare l'autenticità dei contenuti e a mitigare i rischi di uso improprio.

Negazione di responsabilità

In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.

Circa l'autore

Alisa, una giornalista dedicata al MPost, è specializzato in criptovalute, IA, investimenti e nell'ampio regno di Web3. Con un occhio attento alle tendenze e alle tecnologie emergenti, offre una copertura completa per informare e coinvolgere i lettori nel panorama in continua evoluzione della finanza digitale.

Altri articoli
Alice Davidson
Alice Davidson

Alisa, una giornalista dedicata al MPost, è specializzato in criptovalute, IA, investimenti e nell'ampio regno di Web3. Con un occhio attento alle tendenze e alle tecnologie emergenti, offre una copertura completa per informare e coinvolgere i lettori nel panorama in continua evoluzione della finanza digitale.

Hot Stories
Iscriviti alla nostra newsletter.
Notizie

La calma prima della tempesta di Solana: cosa ci dicono ora grafici, balene e segnali on-chain

Solana ha dimostrato ottime performance, trainate dalla crescente adozione, dall'interesse istituzionale e da partnership chiave, affrontando al contempo potenziali ...

Per saperne di più

Criptovalute ad aprile 2025: tendenze chiave, cambiamenti e cosa succederà in futuro

Nell'aprile 2025, il settore delle criptovalute si è concentrato sul rafforzamento dell'infrastruttura principale, con Ethereum che si preparava per Pectra...

Per saperne di più
Scopri di più
Leggi di più
La Commissione bancaria del Senato promuove il CLARITY Act: perché le reti decentralizzate meritano una propria categoria giuridica.
Editoriali Affari Tecnologia
La Commissione bancaria del Senato promuove il CLARITY Act: perché le reti decentralizzate meritano una propria categoria giuridica.
15 Maggio 2026
Secondo gli analisti, la tokenizzazione RWA raggiunge i 31.4 miliardi di dollari, grazie alla convergenza delle condizioni normative e infrastrutturali.
Affari Notizie Tecnologia
Secondo gli analisti, la tokenizzazione RWA raggiunge i 31.4 miliardi di dollari, grazie alla convergenza delle condizioni normative e infrastrutturali.
15 Maggio 2026
Bitget lancia un ecosistema di trading unificato basato sull'intelligenza artificiale, superando 1 milione di utenti e 1.2 miliardi di dollari di volume di trading guidato dall'IA.
Affari Notizie
Bitget lancia un ecosistema di trading unificato basato sull'intelligenza artificiale, superando 1 milione di utenti e 1.2 miliardi di dollari di volume di trading guidato dall'IA.
15 Maggio 2026
OKX e Korea Investment & Securities puntano a una doppia partecipazione del 20% in Coinone, nel contesto dell'ondata di consolidamento del settore crypto in Corea del Sud.
Affari Notizie Tecnologia
OKX e Korea Investment & Securities puntano a una doppia partecipazione del 20% in Coinone, nel contesto dell'ondata di consolidamento del settore crypto in Corea del Sud.
15 Maggio 2026
LABORATORI DI CRITTOMERIA PTE. srl.