Google представя Gemini 3.1 Flash TTS: Нова ера на хиперреалистично, напълно контролируемо генериране на реч с изкуствен интелект
Накратко
Google пуска Gemini 3.1 Flash TTS, усъвършенстван модел за преобразуване на текст в реч с подобрен контрол, изразителност и многоезична поддръжка за гласови приложения, управлявани от изкуствен интелект.

Технологична компания Google обяви пускането на Gemini 3.1 Flash Text-to-Speech (TTS), модел за синтез на реч от ново поколение, предназначен да подобри управляемостта, изразителността и качеството на изхода за разработчици, предприятия и крайни потребители, изграждащи аудио приложения, управлявани от изкуствен интелект.
Разпространението на Gemini 3.1 Flash TTS в момента е в ход на множество платформи на Google. Моделът е достъпен за предварителен преглед за разработчици чрез Gemini API и Google AI Studio, докато корпоративните потребители могат да имат достъп до него в предварителен преглед чрез Vertex AI. Интеграцията се въвежда и за потребителите на Google Workspace чрез Google Vids, разширявайки достъпността на модела в потребителска и професионална среда.
Обновената система представлява напредък в генерирането на синтетичен глас, като Google отчита измерими подобрения в естествеността и изразителните възможности. Според независим бенчмаркинг от Artificial Analysis, който оценява мащабни данни за човешките предпочитания за речеви модели, Gemini 3.1 Flash TTS постигна Elo резултат от 1,211. Същата оценка поставя модела във високопроизводителна категория, съчетаваща високо качество на речта със сравнително ефективни ценови характеристики. Системата поддържа и повече от 70 езика и включва функционалност за диалог с множество говорители, наред с прецизни опции за управление, задвижвани от входове на естествен език.
Разширени контроли и творческо ръководство за генериране на реч
Ключова характеристика на изданието е въвеждането на аудио тагове, механизъм, който позволява на потребителите да насочват речта по-прецизно, като вграждат структурирани инструкции директно в текстови подкани. Тези контроли позволяват корекции на темпото, тона и вокалния стил в рамките на един работен процес за генериране. Системата също така поддържа многопластово насочване, което позволява на разработчиците да... defiконтекст на сцената, присвояване на роли на говорещите чрез конфигурируеми аудио профили и промяна на атрибутите на доставка както на глобално, така и на ниво изречение.
В корпоративни среди, използващи Vertex AI, тези контроли са предназначени да поддържат по-напреднали сценарии за употреба в производството, включително мащабируемо генериране на глас за приложения, изискващи последователни гласове на героите или динамични диалогови системи. Интеграцията включва и функционалност за експортиране, позволяваща генерираните конфигурации да бъдат конвертирани във формати, готови за API, за внедряване в различни платформи и услуги.
Моделът е позициониран като подходящ за внедряване в глобален мащаб, с постоянна производителност на повече от 70 езика. Тази многоезична възможност е комбинирана с подобрен контрол на прозодията, което позволява по-локализирани и естествено звучащи речеви изходи в различни езикови контексти.
Ранните отзиви от тестове, получени от разработчици и корпоративни потребители, показват повишена прецизност в дизайна на гласа и по-голяма гъвкавост при оформянето на изразителния изход. Използването на аудио тагове е подчертано като значително допълнение за изграждане на по-сложни говорени взаимодействия, особено в сценарии, изискващи генериране на звук, базиран на герои или наратив.
Всички аудио изходи, генерирани чрез Gemini 3.1 Flash TTS, са с вградена технология за воден знак SynthID. Тази система въвежда незабележим идентификатор в генерираното аудио съдържание, което позволява откриване на генерирани от изкуствен интелект медии и подкрепя усилията за подобряване на автентичността на съдържанието и смекчаване на рисковете от злоупотреба.
Отказ от отговорност
В съответствие с Доверете се насоките на проекта, моля, имайте предвид, че предоставената на тази страница информация не е предназначена да бъде и не трябва да се тълкува като правен, данъчен, инвестиционен, финансов или каквато и да е друга форма на съвет. Важно е да инвестирате само това, което можете да си позволите да загубите, и да потърсите независим финансов съвет, ако имате някакви съмнения. За допълнителна информация предлагаме да се обърнете към правилата и условията, както и към страниците за помощ и поддръжка, предоставени от издателя или рекламодателя. MetaversePost се ангажира с точно, безпристрастно отчитане, но пазарните условия подлежат на промяна без предизвестие.
За автора
Алиса, всеотдаен журналист в MPost, специализира в криптовалути, изкуствен интелект, инвестиции и обширната сфера на Web3. С остър поглед към нововъзникващите тенденции и технологии, тя предоставя изчерпателно покритие, за да информира и ангажира читателите в непрекъснато развиващия се пейзаж на дигиталните финанси.
Още статии
Алиса, всеотдаен журналист в MPost, специализира в криптовалути, изкуствен интелект, инвестиции и обширната сфера на Web3. С остър поглед към нововъзникващите тенденции и технологии, тя предоставя изчерпателно покритие, за да информира и ангажира читателите в непрекъснато развиващия се пейзаж на дигиталните финанси.



