Google presenta Gemini 3.1 Flash TTS: una nuova era di generazione vocale basata sull'intelligenza artificiale, iperrealistica e completamente controllabile.
In Breve
Google rilascia Gemini 3.1 Flash TTS, un modello avanzato di sintesi vocale con controllo, espressività e supporto multilingue migliorati per le applicazioni vocali basate sull'intelligenza artificiale.

Azienda tecnologica Google ha annunciato il rilascio di Gemini 3.1 Flash Text-to-Speech (TTS), un modello di sintesi vocale di nuova generazione progettato per migliorare la controllabilità, l'espressività e la qualità dell'output per sviluppatori, aziende e utenti finali che creano applicazioni audio basate sull'intelligenza artificiale.
Il lancio di Gemini 3.1 Flash TTS è attualmente in corso su diverse piattaforme Google. Il modello è disponibile in anteprima per gli sviluppatori tramite l'API Gemini e Google AI Studio, mentre gli utenti aziendali possono accedervi in anteprima tramite Vertex AI. È inoltre in fase di introduzione l'integrazione per gli utenti di Google Workspace tramite Google Vids, ampliando la disponibilità del modello sia in ambito consumer che professionale.
Il sistema aggiornato rappresenta un passo avanti nella generazione di voci sintetiche, con Google che segnala miglioramenti misurabili in termini di naturalezza ed espressività. Secondo un benchmark indipendente condotto da Artificial Analysis, che valuta grandi quantità di dati sulle preferenze umane per i modelli vocali, Gemini 3.1 Flash TTS ha raggiunto un punteggio Elo di 1,211. La stessa valutazione colloca il modello in una categoria ad alte prestazioni, combinando un'elevata qualità del parlato con caratteristiche di costo relativamente efficienti. Il sistema supporta inoltre più di 70 lingue e include funzionalità di dialogo multi-speaker, oltre a opzioni di controllo dettagliate basate su input in linguaggio naturale.
Controlli ampliati e direzione creativa per la generazione vocale
Una caratteristica fondamentale della release è l'introduzione dei tag audio, un meccanismo che consente agli utenti di guidare l'output vocale in modo più preciso incorporando istruzioni strutturate direttamente nei prompt di testo. Questi controlli consentono di regolare il ritmo, il tono e lo stile vocale all'interno di un flusso di lavoro di generazione singola. Il sistema supporta anche la direzione a livelli, consentendo agli sviluppatori di definel contesto della scena, assegnare ruoli di parlante tramite profili audio configurabili e modificare gli attributi di erogazione sia a livello globale che a livello di frase.
Negli ambienti aziendali che utilizzano Vertex AI, questi controlli sono pensati per supportare casi d'uso di produzione più avanzati, tra cui la generazione vocale scalabile per applicazioni che richiedono voci di personaggi coerenti o sistemi di dialogo dinamici. L'integrazione include anche funzionalità di esportazione, che consentono di convertire le configurazioni generate in formati pronti per le API per la distribuzione su diverse piattaforme e servizi.
Il modello è stato concepito come adatto all'implementazione su scala globale, con prestazioni costanti in oltre 70 lingue. Questa capacità multilingue è combinata con un controllo prosodico avanzato, consentendo output vocali più localizzati e dal suono naturale in diversi contesti linguistici.
I primi riscontri da parte di sviluppatori e utenti aziendali hanno indicato una maggiore precisione nella progettazione vocale e una maggiore flessibilità nella modellazione dell'output espressivo. L'utilizzo dei tag audio è stato evidenziato come un'aggiunta significativa per la creazione di interazioni vocali più complesse, in particolare in scenari che richiedono la generazione audio basata su personaggi o narrazioni.
Tutti i contenuti audio generati tramite Gemini 3.1 Flash TTS sono dotati di tecnologia di watermarking SynthID. Questo sistema introduce un identificatore impercettibile all'interno del contenuto audio generato, consentendo il rilevamento di contenuti multimediali generati dall'IA e supportando gli sforzi volti a migliorare l'autenticità dei contenuti e a mitigare i rischi di uso improprio.
Negazione di responsabilità
In linea con la Linee guida del progetto Trust, si prega di notare che le informazioni fornite in questa pagina non intendono essere e non devono essere interpretate come consulenza legale, fiscale, di investimento, finanziaria o di qualsiasi altra forma. È importante investire solo ciò che puoi permetterti di perdere e chiedere una consulenza finanziaria indipendente in caso di dubbi. Per ulteriori informazioni, suggeriamo di fare riferimento ai termini e alle condizioni nonché alle pagine di aiuto e supporto fornite dall'emittente o dall'inserzionista. MetaversePost si impegna a fornire report accurati e imparziali, ma le condizioni di mercato sono soggette a modifiche senza preavviso.
Circa l'autore
Alisa, una giornalista dedicata al MPost, è specializzato in criptovalute, IA, investimenti e nell'ampio regno di Web3. Con un occhio attento alle tendenze e alle tecnologie emergenti, offre una copertura completa per informare e coinvolgere i lettori nel panorama in continua evoluzione della finanza digitale.
Altri articoli
Alisa, una giornalista dedicata al MPost, è specializzato in criptovalute, IA, investimenti e nell'ampio regno di Web3. Con un occhio attento alle tendenze e alle tecnologie emergenti, offre una copertura completa per informare e coinvolgere i lettori nel panorama in continua evoluzione della finanza digitale.



