Tudósítást Technológia
April 16, 2026

A Google bemutatja a Gemini 3.1 Flash TTS-t: a hiperrealisztikus, teljesen vezérelhető mesterséges intelligencia által generált beszédgenerálás új korszaka.

Röviden

A Google kiadta a Gemini 3.1 Flash TTS-t, egy fejlett szövegfelolvasó modellt, amely továbbfejlesztett vezérléssel, kifejezőerővel és többnyelvű támogatással rendelkezik mesterséges intelligencia által vezérelt hangalkalmazásokhoz.

A Google bemutatja a Gemini 3.1 Flash TTS-t: a hiperrealisztikus, teljesen vezérelhető mesterséges intelligencia által generált beszédgenerálás új korszaka.

Technológiai vállalat Google bejelentette a Gemini 3.1 Flash Text-to-Speech (TTS) megjelenését, amely egy új generációs beszédszintézis modell, amelynek célja a mesterséges intelligencia által vezérelt audioalkalmazásokat fejlesztő fejlesztők, vállalatok és végfelhasználók számára a szabályozhatóság, a kifejezőerő és a kimeneti minőség javítása.

A Gemini 3.1 Flash TTS bevezetése jelenleg több Google platformon is folyamatban van. A modell előzetes verzióban érhető el a fejlesztők számára a Gemini API-n és a Google AI Studio-n keresztül, míg a vállalati felhasználók a Vertex AI-n keresztül férhetnek hozzá előzetes verzióban. Az integráció a Google Workspace felhasználók számára is bevezetésre kerül a Google Vids-en keresztül, bővítve a modell elérhetőségét a fogyasztói és professzionális környezetekben.

A frissített rendszer előrelépést jelent a szintetikus hanggenerálásban, a Google mérhető javulásról számolt be a természetesség és a kifejezőképesség terén. Az Artificial Analysis független benchmarkingja szerint, amely nagyméretű emberi preferenciaadatokat értékel a beszédmodellekre vonatkozóan, a Gemini 3.1 Flash TTS 1,211 Elo pontszámot ért el. Ugyanez az értékelés a modellt egy nagy teljesítményű kategóriába sorolja, amely a kiváló beszédminőséget viszonylag hatékony költséghatékony jellemzőkkel ötvözi. A rendszer több mint 70 nyelvet támogat, és többbeszélős párbeszédfunkciót is tartalmaz, valamint a természetes nyelvi bemenetek által vezérelt finomhangolt vezérlési lehetőségeket.

Bővített vezérlők és kreatív irányítás a beszédgeneráláshoz

A kiadás egyik kulcsfontosságú jellemzője a hangcímkék bevezetése, egy olyan mechanizmus, amely lehetővé teszi a felhasználók számára, hogy pontosabban irányítsák a beszédkimenetet a strukturált utasítások közvetlenül a szöveges promptokba ágyazásával. Ezek a vezérlők lehetővé teszik a tempó, a hangszín és a hangstílus módosítását egyetlen generációs munkafolyamaton belül. A rendszer támogatja a réteges irányítást is, lehetővé téve a fejlesztők számára, hogy... defijelenet kontextusát, beszélői szerepeket rendelhet hozzá konfigurálható audioprofilokon keresztül, és módosíthatja a kézbesítési attribútumokat mind globális, mind mondatszinten.

A Vertex AI-t használó vállalati környezetekben ezek a vezérlők a fejlettebb termelési felhasználási esetek támogatására szolgálnak, beleértve a skálázható hanggenerálást olyan alkalmazásokhoz, amelyek konzisztens karakterhangokat vagy dinamikus párbeszédrendszereket igényelnek. Az integráció exportálási funkciót is tartalmaz, amely lehetővé teszi a generált konfigurációk API-kész formátumokba konvertálását különböző platformokon és szolgáltatásokban történő telepítéshez.

A modellt globális szintű telepítésre alkalmasnak pozicionálták, több mint 70 nyelven konzisztens teljesítményt nyújtva. Ez a többnyelvű képesség a továbbfejlesztett prozódia-vezérléssel párosul, lehetővé téve a lokalizáltabb és természetesebb hangzású beszédkimenetet a különböző nyelvi kontextusokban.

A fejlesztőktől és a vállalati felhasználóktól kapott korai tesztelési visszajelzések a hangtervezés pontosságának növekedését és a kifejező kimenet alakításának nagyobb rugalmasságát mutatták. A hangcímkék használatát jelentős kiegészítésként emelték ki az összetettebb szóbeli interakciók létrehozásában, különösen a karaktervezérelt vagy narratíván alapuló hanggenerálást igénylő forgatókönyvekben.

A Gemini 3.1 Flash TTS által generált összes hangkimenet SynthID vízjelezési technológiával van ellátva. Ez a rendszer egy láthatatlan azonosítót vezet be a generált hangtartalomba, lehetővé téve a mesterséges intelligencia által generált média észlelését, és támogatva a tartalom hitelességének javítására és a visszaélési kockázatok csökkentésére irányuló erőfeszítéseket.

Címkék:

Jogi nyilatkozat

Összhangban a A Trust Project irányelvei, kérjük, vegye figyelembe, hogy az ezen az oldalon közölt információk nem minősülnek jogi, adózási, befektetési, pénzügyi vagy bármilyen más formájú tanácsnak, és nem is értelmezhetők. Fontos, hogy csak annyit fektessen be, amennyit megengedhet magának, hogy elveszítsen, és kérjen független pénzügyi tanácsot, ha kétségei vannak. További információkért javasoljuk, hogy tekintse meg a szerződési feltételeket, valamint a kibocsátó vagy hirdető által biztosított súgó- és támogatási oldalakat. MetaversePost elkötelezett a pontos, elfogulatlan jelentéstétel mellett, de a piaci feltételek előzetes értesítés nélkül változhatnak.

A szerzőről

Alisa, a The MPost, kriptovalutákra, mesterséges intelligenciára, befektetésekre és a világ kiterjedt területére specializálódott Web3. Élénk szemmel figyeli a feltörekvő trendeket és technológiákat, ezért átfogó tájékoztatást nyújt, hogy tájékoztassa és bevonja olvasóit a digitális pénzügyek folyamatosan fejlődő világába.

További cikkek
Alisa Davidson
Alisa Davidson

Alisa, a The MPost, kriptovalutákra, mesterséges intelligenciára, befektetésekre és a világ kiterjedt területére specializálódott Web3. Élénk szemmel figyeli a feltörekvő trendeket és technológiákat, ezért átfogó tájékoztatást nyújt, hogy tájékoztassa és bevonja olvasóit a digitális pénzügyek folyamatosan fejlődő világába.

Hot Stories
Csatlakozzon hírlevelünkhöz.
Legfrissebb hírek

A Solana-vihar előtti csend: Mit mondanak most a grafikonok, a bálnák és a láncon lévő jelek?

A Solana erős teljesítményt mutatott, amelyet a növekvő elfogadás, az intézményi érdeklődés és a kulcsfontosságú partnerségek vezéreltek, miközben potenciális ...

Tudjon meg többet

Kriptovaluták 2025 áprilisában: Főbb trendek, változások és mi következik?

2025 áprilisában a kriptovilág az alapvető infrastruktúra megerősítésére összpontosított, az Ethereum pedig a Pectra ...

Tudjon meg többet
További információk
Részletek
A Szenátus Bankbizottsága előterjeszti a CLARITY törvényt: Miért érdemelnek a decentralizált hálózatok saját jogi kategóriát?
Vélemény üzleti Technológia
A Szenátus Bankbizottsága előterjeszti a CLARITY törvényt: Miért érdemelnek a decentralizált hálózatok saját jogi kategóriát?
May 15, 2026
Az RWA tokenizáció elérte a 31.4 milliárd dollárt, mivel a szabályozási és infrastrukturális feltételek elkezdtek konvergálni, mondják az elemzők
üzleti Tudósítást Technológia
Az RWA tokenizáció elérte a 31.4 milliárd dollárt, mivel a szabályozási és infrastrukturális feltételek elkezdtek konvergálni, mondják az elemzők
May 15, 2026
A Bitget elindítja az egységes mesterséges intelligencia alapú kereskedési ökoszisztémát, meghaladja az 1 millió felhasználót és az 1.2 milliárd dolláros mesterséges intelligencia által vezérelt kereskedési volument.
üzleti Tudósítást
A Bitget elindítja az egységes mesterséges intelligencia alapú kereskedési ökoszisztémát, meghaladja az 1 millió felhasználót és az 1.2 milliárd dolláros mesterséges intelligencia által vezérelt kereskedési volument.
May 15, 2026
Az OKX és a Korea Investment & Securities kettős, 20%-os részesedést tervez a Coinone-ban a dél-koreai kriptovaluta-konszolidációs hullám közepette.
üzleti Tudósítást Technológia
Az OKX és a Korea Investment & Securities kettős, 20%-os részesedést tervez a Coinone-ban a dél-koreai kriptovaluta-konszolidációs hullám közepette.
May 15, 2026
CRYPTOMERIA LABS PTE. KFT.