Google julkistaa Gemini 3.1 Flash TTS:n: Hyperrealistisen, täysin hallittavan tekoälyn puheen generoinnin uusi aikakausi
Lyhyesti
Google julkaisee Gemini 3.1 Flash TTS:n, edistyneen tekstistä puheeksi -mallin, jossa on parannettu hallinta, ilmaisuvoimaisuus ja monikielinen tuki tekoälypohjaisille äänisovelluksille.

Teknologiayritys Google ilmoitti julkaisevansa Gemini 3.1 Flash Text-to-Speech (TTS) -puhesynteesimallin, joka on suunniteltu parantamaan ohjattavuutta, ilmaisuvoimaisuutta ja tulostuslaatua kehittäjille, yrityksille ja loppukäyttäjille, jotka rakentavat tekoälypohjaisia äänisovelluksia.
Gemini 3.1 Flash TTS:n käyttöönotto on parhaillaan käynnissä useilla Googlen alustoilla. Malli on saatavilla esikatselussa kehittäjille Gemini API:n ja Google AI Studion kautta, kun taas yrityskäyttäjät voivat käyttää sitä esikatselussa Vertex AI:n kautta. Integraatio otetaan käyttöön myös Google Workspace -käyttäjille Google Vidsin kautta, mikä laajentaa mallin saatavuutta kuluttaja- ja ammattiympäristöissä.
Päivitetty järjestelmä edustaa edistysaskelta synteettisen äänen generoinnissa, ja Google raportoi mitattavissa olevista parannuksista luonnollisuudessa ja ilmaisukyvyssä. Artificial Analysis -yrityksen riippumattoman vertailun mukaan, jossa arvioidaan laajamittaista ihmisten puhemallien mieltymysdataa, Gemini 3.1 Flash TTS saavutti Elo-pistemäärän 1 211. Sama arviointi sijoittaa mallin korkean suorituskyvyn luokkaan, jossa yhdistyvät vahva puheenlaatu ja suhteellisen tehokkaat kustannusominaisuudet. Järjestelmä tukee myös yli 70 kieltä ja sisältää usean puhujan dialogitoiminnon sekä hienojakoisia ohjausvaihtoehtoja, joita ohjaavat luonnollisen kielen syötteet.
Laajennetut säätimet ja luova suunta puheen generointiin
Julkaisun keskeinen ominaisuus on äänitunnisteiden käyttöönotto. Näiden tunnisteiden avulla käyttäjät voivat ohjata puheen tuottoa tarkemmin upottamalla jäsenneltyjä ohjeita suoraan tekstikehotteisiin. Nämä säätimet mahdollistavat tahdin, sävyn ja laulutyylin säätämisen yhden sukupolven työnkulun sisällä. Järjestelmä tukee myös kerrostettua ohjausta, jonka avulla kehittäjät voivat defikohtauksen kontekstia, määritä puhujan roolit konfiguroitavien ääniprofiilien avulla ja muokkaa toimitusominaisuuksia sekä yleisellä että lausetasolla.
Vertex AI:ta käyttävissä yritysympäristöissä nämä ohjausobjektit on tarkoitettu tukemaan edistyneempiä tuotantokäyttötapauksia, mukaan lukien skaalautuva äänen generointi sovelluksissa, jotka vaativat yhdenmukaisia hahmojen ääniä tai dynaamisia dialogijärjestelmiä. Integraatio sisältää myös vientitoiminnon, jonka avulla luodut kokoonpanot voidaan muuntaa API-valmiiksi muotoihin, jotta niitä voidaan ottaa käyttöön eri alustoilla ja palveluissa.
Malli on positionoitu sopivaksi maailmanlaajuiseen käyttöönottoon, ja sen suorituskyky on yhdenmukainen yli 70 kielellä. Tämä monikielisyysominaisuus yhdistetään parannettuun prosodian hallintaan, mikä mahdollistaa lokalisoidumman ja luonnollisemmalta kuulostavan puheen tuotoksen eri kielikonteksteissa.
Kehittäjien ja yrityskäyttäjien alustava testauspalaute on osoittanut äänisuunnittelun tarkkuuden lisääntymistä ja ilmaisullisen tuotoksen muotoilun joustavuutta. Äänitagien käyttöä on korostettu merkittävänä lisäyksenä monimutkaisempien puhuttujen vuorovaikutusten rakentamiseen, erityisesti tilanteissa, jotka vaativat hahmovetoista tai kerrontapohjaista äänen generointia.
Kaikki Gemini 3.1 Flash TTS:n tuottama ääni on upotettu SynthID-vesileimausteknologialla. Tämä järjestelmä lisää luotuun äänisisältöön huomaamattoman tunnisteen, joka mahdollistaa tekoälyn tuottaman median havaitsemisen ja tukee pyrkimyksiä parantaa sisällön aitoutta ja vähentää väärinkäyttöriskejä.
Vastuun kieltäminen
Mukaisesti Luottamusprojektin ohjeetHuomaa, että tällä sivulla annettuja tietoja ei ole tarkoitettu eikä niitä tule tulkita oikeudellisiksi, verotukselliseksi, sijoitus-, rahoitus- tai minkään muun muodon neuvoiksi. On tärkeää sijoittaa vain sen verran, mitä sinulla on varaa menettää, ja pyytää riippumatonta talousneuvontaa, jos sinulla on epäilyksiä. Lisätietoja saat käyttöehdoista sekä myöntäjän tai mainostajan tarjoamista ohje- ja tukisivuista. MetaversePost on sitoutunut tarkkaan, puolueettomaan raportointiin, mutta markkinaolosuhteet voivat muuttua ilman erillistä ilmoitusta.
Author
Alisa, omistautunut toimittaja MPost, erikoistunut kryptoon, tekoälyyn, sijoituksiin ja laajaan maailmaan Web3. Hän tarkkailee tarkasti nousevia trendejä ja teknologioita, ja hän tarjoaa kattavan kattavuuden tiedottaakseen ja saadakseen lukijat mukaan digitaalisen rahoituksen jatkuvasti kehittyvään maisemaan.
lisää artikkeleita
Alisa, omistautunut toimittaja MPost, erikoistunut kryptoon, tekoälyyn, sijoituksiin ja laajaan maailmaan Web3. Hän tarkkailee tarkasti nousevia trendejä ja teknologioita, ja hän tarjoaa kattavan kattavuuden tiedottaakseen ja saadakseen lukijat mukaan digitaalisen rahoituksen jatkuvasti kehittyvään maisemaan.



