Google presenterar Gemini 3.1 Flash TTS: En ny era av hyperrealistisk, helt kontrollerbar AI-talgenerering
I korthet
Google släpper Gemini 3.1 Flash TTS, en avancerad text-till-tal-modell med förbättrad kontroll, uttrycksförmåga och flerspråkigt stöd för AI-drivna röstapplikationer.

Teknologiföretag Google tillkännagav lanseringen av Gemini 3.1 Flash Text-to-Speech (TTS), en ny generation talsyntesmodell utformad för att förbättra kontrollerbarhet, uttrycksfullhet och utdatakvalitet för utvecklare, företag och slutanvändare som bygger AI-drivna ljudapplikationer.
Lanseringen av Gemini 3.1 Flash TTS pågår för närvarande på flera Google-plattformar. Modellen är tillgänglig i förhandsvisning för utvecklare via Gemini API och Google AI Studio, medan företagsanvändare kan komma åt den i förhandsvisning via Vertex AI. Integration introduceras också för Google Workspace-användare via Google Vids, vilket utökar modellens tillgänglighet i konsument- och professionella miljöer.
Det uppdaterade systemet representerar ett framsteg inom generering av syntetisk röst, där Google rapporterar mätbara förbättringar i naturlighet och uttrycksförmåga. Enligt oberoende benchmarking av Artificial Analysis, som utvärderar storskaliga mänskliga preferensdata för talmodeller, uppnådde Gemini 3.1 Flash TTS ett Elo-poäng på 1 211. Samma utvärdering placerar modellen i en högpresterande kategori som kombinerar stark talkvalitet med jämförelsevis effektiva kostnadsegenskaper. Systemet stöder också mer än 70 språk och inkluderar dialogfunktioner med flera högtalare, tillsammans med finjusterade kontrollalternativ som drivs av naturliga språkinmatningar.
Utökade kontroller och kreativ riktning för talgenerering
En viktig funktion i utgåvan är introduktionen av ljudtaggar, en mekanism som gör det möjligt för användare att styra talutdata mer exakt genom att bädda in strukturerade instruktioner direkt i textmeddelanden. Dessa kontroller möjliggör justeringar av tempo, ton och röststil inom ett enda generations arbetsflöde. Systemet stöder också lagerstyrd regi, vilket gör det möjligt för utvecklare att... defiscenkontext, tilldela talarroller genom konfigurerbara ljudprofiler och modifiera leveransattribut på både global nivå och meningsnivå.
Inom företagsmiljöer som använder Vertex AI är dessa kontroller avsedda att stödja mer avancerade produktionsanvändningsfall, inklusive skalbar röstgenerering för applikationer som kräver konsekventa karaktärsröster eller dynamiska dialogsystem. Integrationen inkluderar även exportfunktionalitet, vilket gör att genererade konfigurationer kan konverteras till API-klara format för distribution över olika plattformar och tjänster.
Modellen har positionerats som lämplig för global distribution, med konsekvent prestanda på fler än 70 språk. Denna flerspråkiga kapacitet kombineras med förbättrad prosodikontroll, vilket möjliggör mer lokaliserad och naturligt klingande talutgång i olika språkliga sammanhang.
Tidig testfeedback från utvecklare och företagsanvändare har indikerat ökad precision i röstdesign och större flexibilitet i att forma uttrycksfulla utgångar. Användningen av ljudtaggar har framhävts som ett viktigt tillägg för att konstruera mer komplexa talade interaktioner, särskilt i scenarier som kräver karaktärsdriven eller narrativ ljudgenerering.
Allt ljud som genereras via Gemini 3.1 Flash TTS är inbäddat med SynthID-vattenmärkningsteknik. Detta system introducerar en omärkbar identifierare i genererat ljudinnehåll, vilket möjliggör detektering av AI-genererad media och stöder insatser för att förbättra innehållets autenticitet och minska risker för missbruk.
Ansvarsfriskrivning
I linje med den Riktlinjer för Trust Project, vänligen notera att informationen på den här sidan inte är avsedd att vara och inte ska tolkas som juridisk, skattemässig, investerings-, finansiell eller någon annan form av rådgivning. Det är viktigt att bara investera det du har råd att förlora och att söka oberoende finansiell rådgivning om du har några tvivel. För ytterligare information föreslår vi att du hänvisar till villkoren samt hjälp- och supportsidorna som tillhandahålls av utfärdaren eller annonsören. MetaversePost är engagerad i korrekt, opartisk rapportering, men marknadsförhållandena kan ändras utan föregående meddelande.
Om författaren
Alisa, en engagerad journalist på MPost, specialiserar sig på krypto, AI, investeringar och det expansiva området av Web3. Med ett skarpt öga för nya trender och tekniker levererar hon omfattande täckning för att informera och engagera läsare i det ständigt föränderliga landskapet för digital ekonomi.
fler artiklar
Alisa, en engagerad journalist på MPost, specialiserar sig på krypto, AI, investeringar och det expansiva området av Web3. Med ett skarpt öga för nya trender och tekniker levererar hon omfattande täckning för att informera och engagera läsare i det ständigt föränderliga landskapet för digital ekonomi.



