Google afslører Gemini 3.1 Flash TTS: En ny æra inden for hyperrealistisk, fuldt kontrollerbar AI-talegenerering
Kort sagt
Google udgiver Gemini 3.1 Flash TTS, en avanceret tekst-til-tale-model med forbedret kontrol, udtryksevne og flersproget understøttelse af AI-drevne stemmeapplikationer.

Teknologivirksomhed Google annoncerede udgivelsen af Gemini 3.1 Flash Text-to-Speech (TTS), en ny generation af talesyntesemodel designet til at forbedre kontrollerbarhed, udtryksevne og outputkvalitet for udviklere, virksomheder og slutbrugere, der bygger AI-drevne lydapplikationer.
Udrulningen af Gemini 3.1 Flash TTS er i øjeblikket i gang på tværs af flere Google-platforme. Modellen er tilgængelig som forhåndsvisning for udviklere via Gemini API og Google AI Studio, mens virksomhedsbrugere kan få adgang til den som forhåndsvisning via Vertex AI. Integration introduceres også for Google Workspace-brugere via Google Vids, hvilket udvider modellens tilgængelighed på tværs af forbruger- og professionelle miljøer.
Det opdaterede system repræsenterer et fremskridt inden for generering af syntetisk stemme, hvor Google rapporterer målbare forbedringer i naturlighed og udtryksevne. Ifølge uafhængig benchmarking fra Artificial Analysis, som evaluerer store menneskelige præferencedata for talemodeller, opnåede Gemini 3.1 Flash TTS en Elo-score på 1,211. Den samme evaluering placerer modellen i en højtydende kategori, der kombinerer stærk talekvalitet med forholdsvis effektive omkostningsegenskaber. Systemet understøtter også mere end 70 sprog og inkluderer dialogfunktionalitet med flere højttalere samt finjusterede kontrolmuligheder drevet af naturligt sproginput.
Udvidede kontroller og kreativ retning til talegenerering
En nøglefunktion i udgivelsen er introduktionen af lydkoder, en mekanisme, der giver brugerne mulighed for at styre taleoutput mere præcist ved at integrere strukturerede instruktioner direkte i tekstprompter. Disse kontroller muliggør justeringer af tempo, tone og vokalstil inden for en enkelt generations arbejdsgang. Systemet understøtter også lagdelt instruktion, hvilket giver udviklere mulighed for... defijustere scenekontekst, tildele talerroller gennem konfigurerbare lydprofiler og ændre leveringsattributter på både globalt og sætningsniveau.
I virksomhedsmiljøer, der bruger Vertex AI, er disse kontroller beregnet til at understøtte mere avancerede produktionsscenarier, herunder skalerbar stemmegenerering til applikationer, der kræver ensartede karakterstemmer eller dynamiske dialogsystemer. Integrationen inkluderer også eksportfunktionalitet, der gør det muligt at konvertere genererede konfigurationer til API-klare formater til implementering på tværs af forskellige platforme og tjenester.
Modellen er blevet positioneret som egnet til global implementering med ensartet ydeevne på tværs af mere end 70 sprog. Denne flersprogede funktion kombineres med forbedret prosodikontrol, hvilket muliggør mere lokaliseret og naturligt klingende taleoutput på tværs af forskellige sproglige kontekster.
Tidlig testfeedback fra udviklere og virksomhedsbrugere har indikeret øget præcision i stemmedesign og større fleksibilitet i udformningen af udtryksfuldt output. Brugen af lydtags er blevet fremhævet som en væsentlig tilføjelse til at konstruere mere komplekse talte interaktioner, især i scenarier, der kræver karakterdrevet eller narrativbaseret lydgenerering.
Alt lydoutput genereret via Gemini 3.1 Flash TTS er integreret med SynthID-vandmærkningsteknologi. Dette system introducerer en umærkelig identifikator i genereret lydindhold, hvilket muliggør detektion af AI-genererede medier og understøtter bestræbelserne på at forbedre indholdsautenticiteten og mindske risikoen for misbrug.
Ansvarsfraskrivelse
I tråd med den Trust Project retningslinjer, bemærk venligst, at oplysningerne på denne side ikke er beregnet til at være og ikke skal fortolkes som juridiske, skattemæssige, investeringsmæssige, finansielle eller nogen anden form for rådgivning. Det er vigtigt kun at investere, hvad du har råd til at tabe, og at søge uafhængig finansiel rådgivning, hvis du er i tvivl. For yderligere information foreslår vi at henvise til vilkårene og betingelserne samt hjælpe- og supportsiderne fra udstederen eller annoncøren. MetaversePost er forpligtet til nøjagtig, objektiv rapportering, men markedsforholdene kan ændres uden varsel.
Om forfatteren
Alisa, en dedikeret journalist ved MPost, specialiserer sig i krypto, AI, investeringer og det omfattende område af Web3. Med et skarpt øje for nye trends og teknologier leverer hun omfattende dækning for at informere og engagere læserne i det stadigt udviklende landskab af digital finans.
Flere artikler
Alisa, en dedikeret journalist ved MPost, specialiserer sig i krypto, AI, investeringer og det omfattende område af Web3. Med et skarpt øje for nye trends og teknologier leverer hun omfattende dækning for at informere og engagere læserne i det stadigt udviklende landskab af digital finans.



