Google представляє Gemini 3.1 Flash TTS: нову еру гіперреалістичної, повністю керованої генерації мовлення за допомогою штучного інтелекту
Коротко
Google випускає Gemini 3.1 Flash TTS, вдосконалену модель перетворення тексту в мовлення з покращеним керуванням, виразністю та багатомовною підтримкою для голосових програм на базі штучного інтелекту.

Технологічна компанія Google оголосила про випуск Gemini 3.1 Flash Text-to-Speech (TTS) – моделі синтезу мовлення нового покоління, розробленої для покращення керованості, виразності та якості виводу для розробників, підприємств та кінцевих користувачів, які створюють аудіододатки на основі штучного інтелекту.
Розгортання Gemini 3.1 Flash TTS зараз триває на кількох платформах Google. Модель доступна в режимі попереднього перегляду для розробників через Gemini API та Google AI Studio, тоді як корпоративні користувачі можуть отримати до неї доступ у режимі попереднього перегляду через Vertex AI. Також запроваджується інтеграція для користувачів Google Workspace через Google Vids, що розширює доступність моделі в споживчому та професійному середовищі.
Оновлена система являє собою прогрес у генерації синтетичного голосу, і Google повідомляє про помітні покращення природності та виразності. Згідно з незалежним бенчмаркінгом від Artificial Analysis, який оцінює великомасштабні дані про людські вподобання для моделей мовлення, Gemini 3.1 Flash TTS досягла балу ELO 1,211. Ця ж оцінка ставить модель у категорію високопродуктивних, що поєднує високу якість мовлення з порівняно ефективними економічними характеристиками. Система також підтримує понад 70 мов і включає функцію діалогу з кількома динаміками, а також детальні параметри керування на основі вводу природною мовою.
Розширені елементи керування та креативний напрямок для генерації мовлення
Ключовою особливістю цього випуску є впровадження аудіотегів – механізму, який дозволяє користувачам точніше керувати виводом мовлення, вбудовуючи структуровані інструкції безпосередньо в текстові підказки. Ці елементи керування дозволяють налаштовувати темп, тон і вокальний стиль в рамках одного робочого процесу генерації. Система також підтримує багаторівневе керування, що дозволяє розробникам… defiконтекст сцени, призначати ролі спікерів за допомогою налаштовуваних аудіопрофілів та змінювати атрибути доставки як на глобальному рівні, так і на рівні речень.
У корпоративних середовищах, що використовують Vertex AI, ці елементи керування призначені для підтримки більш просунутих сценаріїв використання у виробництві, включаючи масштабовану генерацію голосу для програм, що потребують узгоджених голосів персонажів або динамічних систем діалогів. Інтеграція також включає функцію експорту, що дозволяє конвертувати згенеровані конфігурації у формати, готові до API, для розгортання на різних платформах та сервісах.
Модель позиціонується як придатна для розгортання в глобальному масштабі, з стабільною продуктивністю на понад 70 мовах. Ця багатомовна можливість поєднується з покращеним контролем просодії, що забезпечує більш локалізоване та природне звучання мовлення в різних лінгвістичних контекстах.
Відгуки розробників та корпоративних користувачів про раннє тестування вказують на підвищену точність у голосовому дизайні та більшу гнучкість у формуванні виразного виводу. Використання аудіотегів було виділено як важливе доповнення для побудови складніших розмовних взаємодій, особливо в сценаріях, що вимагають генерації аудіо на основі персонажів або наративу.
Весь аудіовихід, згенерований за допомогою Gemini 3.1 Flash TTS, оснащений технологією водяних знаків SynthID. Ця система впроваджує непомітний ідентифікатор у згенерований аудіоконтент, що дозволяє виявляти медіафайли, згенеровані штучним інтелектом, та підтримує зусилля щодо підвищення автентичності контенту та зменшення ризиків неправильного використання.
відмова
Відповідно до Правила проекту Trust, будь ласка, зверніть увагу, що інформація, надана на цій сторінці, не призначена і не повинна тлумачитися як юридична, податкова, інвестиційна, фінансова або будь-яка інша форма консультації. Важливо інвестувати лише те, що ви можете дозволити собі втратити, і звернутися за незалежною фінансовою порадою, якщо у вас виникнуть сумніви. Щоб отримати додаткову інформацію, ми пропонуємо звернутися до положень та умов, а також до сторінок довідки та підтримки, наданих емітентом або рекламодавцем. MetaversePost прагне до точного, неупередженого звітування, але ринкові умови можуть змінюватися без попередження.
про автора
Аліса, відданий журналіст на MPost, спеціалізується на криптовалюті, штучному інтелекті, інвестиціях та широкій сфері Web3. З гострим поглядом на нові тенденції та технології, вона надає всебічне висвітлення, щоб інформувати та залучати читачів до постійно змінюваного ландшафту цифрових фінансів.
інші статті
Аліса, відданий журналіст на MPost, спеціалізується на криптовалюті, штучному інтелекті, інвестиціях та широкій сфері Web3. З гострим поглядом на нові тенденції та технології, вона надає всебічне висвітлення, щоб інформувати та залучати читачів до постійно змінюваного ландшафту цифрових фінансів.



