„Google“ pristato „Gemini 3.1 Flash TTS“: naują hiperrealistinės, visiškai valdomos dirbtinio intelekto kalbos generavimo erą
Trumpai
„Google“ išleido „Gemini 3.1 Flash TTS“ – pažangų teksto įgarsinimo modelį su patobulintu valdymu, išraiškingumu ir daugiakalbiu palaikymu dirbtinio intelekto valdomoms balso programoms.

Technologijų įmonė "Google" „Gemini 3.1 Flash Text-to-Speech“ (TTS) – naujos kartos kalbos sintezės modelio, skirto pagerinti valdymą, išraiškingumą ir išvesties kokybę kūrėjams, įmonėms ir galutiniams vartotojams, kuriantiems dirbtinio intelekto garso programas, – išleidimą.
„Gemini 3.1 Flash TTS“ šiuo metu diegiamas keliose „Google“ platformose. Kūrėjai modelį gali peržiūrėti per „Gemini API“ ir „Google AI Studio“, o įmonių vartotojai gali jį peržiūrėti per „Vertex AI“. Integracija taip pat pristatoma „Google Workspace“ vartotojams per „Google Vids“, taip išplečiant modelio prieinamumą vartotojų ir profesionalioje aplinkoje.
Atnaujinta sistema rodo pažangą sintetinio balso generavimo srityje, o „Google“ praneša apie išmatuojamus natūralumo ir išraiškos galimybių patobulinimus. Remiantis nepriklausomu „Artificial Analysis“ atliktu lyginamuoju tyrimu, kuriame vertinami didelio masto žmonių kalbos modelių pasirinkimo duomenys, „Gemini 3.1 Flash TTS“ pasiekė 1 211 Elo balą. Tame pačiame vertinime modelis priskiriamas didelio našumo kategorijai, kurioje derinama puiki kalbos kokybė ir palyginti efektyvios kainos charakteristikos. Sistema taip pat palaiko daugiau nei 70 kalbų ir apima kelių kalbėtojų dialogo funkciją bei smulkias valdymo parinktis, pagrįstas natūralios kalbos įvestimis.
Išplėstiniai valdymo elementai ir kūrybinė kryptis kalbos generavimui
Svarbiausias šios versijos bruožas yra garso žymų įvedimas – mechanizmas, leidžiantis vartotojams tiksliau valdyti kalbos išvestį, įterpiant struktūrizuotas instrukcijas tiesiai į teksto raginimus. Šie valdikliai leidžia koreguoti tempą, toną ir balso stilių vienos kartos darbo eigoje. Sistema taip pat palaiko sluoksniuotą valdymą, leidžiantį kūrėjams defiscenos kontekstą, priskirkite kalbėtojų vaidmenis naudodami konfigūruojamus garso profilius ir modifikuokite pateikimo atributus tiek bendru, tiek sakinio lygmeniu.
Įmonių aplinkose, kuriose naudojama „Vertex AI“, šie valdikliai skirti palaikyti sudėtingesnius gamybinius naudojimo atvejus, įskaitant keičiamo mastelio balso generavimą programoms, kurioms reikalingi nuoseklūs simbolių balsai arba dinaminės dialogo sistemos. Integracija taip pat apima eksportavimo funkciją, leidžiančią sugeneruotas konfigūracijas konvertuoti į API paruoštus formatus, kad būtų galima jas diegti skirtingose platformose ir paslaugose.
Modelis buvo pozicionuotas kaip tinkamas diegti visame pasaulyje, nes užtikrina nuoseklų veikimą daugiau nei 70 kalbų. Ši daugiakalbystės galimybė derinama su patobulinta prozodijos kontrole, todėl įvairiuose kalbiniuose kontekstuose galima išgauti lokalizuotesnę ir natūraliau skambančią kalbą.
Ankstyvieji kūrėjų ir įmonių naudotojų testavimo atsiliepimai parodė padidėjusį balso dizaino tikslumą ir didesnį lankstumą formuojant išraiškingą išvestį. Garso žymų naudojimas buvo pabrėžtas kaip reikšmingas papildymas kuriant sudėtingesnes sakytines sąveikas, ypač scenarijuose, kuriuose reikalingas personažais pagrįstas arba pasakojimu pagrįstas garso generavimas.
Visas „Gemini 3.1 Flash TTS“ generuojamas garsas yra su „SynthID“ vandenženklių technologija. Ši sistema į generuojamą garso turinį įtraukia nepastebimą identifikatorių, kuris leidžia aptikti dirbtinio intelekto generuojamą mediją ir padeda pagerinti turinio autentiškumą bei sumažinti netinkamo naudojimo riziką.
Atsakomybės neigimas
Remdamasi tuo, Pasitikėjimo projekto gairės, atkreipkite dėmesį, kad šiame puslapyje pateikta informacija nėra skirta ir neturėtų būti aiškinama kaip teisinė, mokesčių, investicinė, finansinė ar bet kokia kita konsultacija. Svarbu investuoti tik tai, ką galite sau leisti prarasti, ir, jei turite kokių nors abejonių, kreiptis į nepriklausomą finansinę konsultaciją. Norėdami gauti daugiau informacijos, siūlome peržiūrėti taisykles ir nuostatas bei pagalbos ir palaikymo puslapius, kuriuos pateikia išdavėjas arba reklamuotojas. MetaversePost yra įsipareigojusi teikti tikslias, nešališkas ataskaitas, tačiau rinkos sąlygos gali keistis be įspėjimo.
Apie autorių
Alisa, atsidavusi žurnalistė MPost, specializuojasi kriptovaliutų, dirbtinio intelekto, investicijų ir plačios srities srityse Web3. Akylai žvelgdama į naujas tendencijas ir technologijas, ji pateikia išsamią informaciją, kad informuotų ir įtrauktų skaitytojus į nuolat besikeičiančią skaitmeninių finansų aplinką.
Daugiau straipsnių
Alisa, atsidavusi žurnalistė MPost, specializuojasi kriptovaliutų, dirbtinio intelekto, investicijų ir plačios srities srityse Web3. Akylai žvelgdama į naujas tendencijas ir technologijas, ji pateikia išsamią informaciją, kad informuotų ir įtrauktų skaitytojus į nuolat besikeičiančią skaitmeninių finansų aplinką.



