Google predstavlja Gemini 3.1 Flash TTS: novo obdobje hiperrealističnega, popolnoma nadzorljivega ustvarjanja govora z umetno inteligenco
Na kratko
Google je izdal Gemini 3.1 Flash TTS, napredni model pretvorbe besedila v govor z izboljšanim nadzorom, izraznostjo in večjezično podporo za glasovne aplikacije, ki jih poganja umetna inteligenca.

Tehnološko podjetje google je napovedal izdajo Gemini 3.1 Flash Text-to-Speech (TTS), modela sinteze govora nove generacije, zasnovanega za izboljšanje nadzora, izraznosti in kakovosti izhoda za razvijalce, podjetja in končne uporabnike, ki gradijo zvočne aplikacije, ki jih poganja umetna inteligenca.
Uvajanje Gemini 3.1 Flash TTS trenutno poteka na več Googlovih platformah. Model je na voljo v predogledu za razvijalce prek Gemini API-ja in Google AI Studio, medtem ko lahko poslovni uporabniki do njega dostopajo v predogledu prek Vertex AI. Integracija se uvaja tudi za uporabnike Google Workspace prek Google Vids, kar širi razpoložljivost modela v potrošniških in profesionalnih okoljih.
Posodobljen sistem predstavlja napredek v generiranju sintetičnega glasu, pri čemer Google poroča o merljivih izboljšavah v naravnosti in izraznih sposobnostih. Glede na neodvisno primerjalno analizo podjetja Artificial Analysis, ki ocenjuje obsežne podatke o človeških preferencah za govorne modele, je Gemini 3.1 Flash TTS dosegel oceno Elo 1,211. Ista ocena uvršča model v kategorijo visoke zmogljivosti, ki združuje visoko kakovost govora s sorazmerno učinkovitimi stroškovnimi lastnostmi. Sistem podpira tudi več kot 70 jezikov in vključuje funkcijo dialoga z več govorci, poleg možnosti natančnega upravljanja, ki jih poganjajo vnosi naravnega jezika.
Razširjeni nadzor in ustvarjalna usmeritev za ustvarjanje govora
Ključna značilnost izdaje je uvedba zvočnih oznak, mehanizma, ki uporabnikom omogoča natančnejše vodenje govornega izhoda z vdelavo strukturiranih navodil neposredno v besedilne pozive. Ti kontrolniki omogočajo prilagajanje tempa, tona in vokalnega sloga v okviru enega samega delovnega toka generacije. Sistem podpira tudi večplastno vodenje, kar razvijalcem omogoča, da defikontekst prizora, dodelite vloge govorcev prek nastavljivih zvočnih profilov in spremenite atribute izvedbe tako na globalni kot na ravni stavkov.
V poslovnih okoljih, ki uporabljajo Vertex AI, so ti kontrolniki namenjeni podpori naprednejših produkcijskih primerov uporabe, vključno z generiranjem skalabilnega glasu za aplikacije, ki zahtevajo dosledne glasove likov ali dinamične sisteme dialogov. Integracija vključuje tudi funkcionalnost izvoza, ki omogoča pretvorbo ustvarjenih konfiguracij v formate, pripravljene za API, za uvajanje na različnih platformah in storitvah.
Model je bil pozicioniran kot primeren za globalno uporabo, z doslednim delovanjem v več kot 70 jezikih. Ta večjezična zmogljivost je združena z izboljšanim nadzorom prozodije, kar omogoča bolj lokalizirane in naravno zveneče govorne izhode v različnih jezikovnih kontekstih.
Povratne informacije razvijalcev in poslovnih uporabnikov o zgodnjem testiranju so pokazale večjo natančnost pri oblikovanju glasu in večjo prilagodljivost pri oblikovanju izraznega izhoda. Uporaba zvočnih oznak je bila poudarjena kot pomemben dodatek za gradnjo kompleksnejših govornih interakcij, zlasti v scenarijih, ki zahtevajo generiranje zvoka, ki ga poganjajo liki ali pripoved.
Ves zvočni izhod, ustvarjen s programom Gemini 3.1 Flash TTS, je opremljen s tehnologijo vodnega žiga SynthID. Ta sistem v ustvarjeno zvočno vsebino vnese neopazen identifikator, kar omogoča zaznavanje medijev, ustvarjenih z umetno inteligenco, in podpira prizadevanja za izboljšanje pristnosti vsebine ter zmanjšanje tveganj zlorabe.
Zavrnitev odgovornosti
V skladu z Smernice projekta Trust, upoštevajte, da informacije na tej strani niso namenjene in se jih ne sme razlagati kot pravni, davčni, naložbeni, finančni ali kakršen koli drug nasvet. Pomembno je, da vlagate samo tisto, kar si lahko privoščite izgubiti, in da poiščete neodvisen finančni nasvet, če imate kakršne koli dvome. Za dodatne informacije predlagamo, da si ogledate določila in pogoje ter strani s pomočjo in podporo, ki jih nudi izdajatelj ali oglaševalec. MetaversePost se zavzema za natančno in nepristransko poročanje, vendar se tržni pogoji lahko spremenijo brez predhodnega obvestila.
O avtorju
Alisa, predana novinarka pri MPost, specializiran za kriptovalute, umetno inteligenco, naložbe in široko področje Web3. Z ostrim očesom za nastajajoče trende in tehnologije zagotavlja celovito pokritost za informiranje in vključevanje bralcev v nenehno razvijajočo se pokrajino digitalnih financ.
več člankov
Alisa, predana novinarka pri MPost, specializiran za kriptovalute, umetno inteligenco, naložbe in široko področje Web3. Z ostrim očesom za nastajajoče trende in tehnologije zagotavlja celovito pokritost za informiranje in vključevanje bralcev v nenehno razvijajočo se pokrajino digitalnih financ.



