Google представляет Gemini 3.1 Flash TTS: новую эру гиперреалистичной, полностью управляемой генерации речи с помощью ИИ.
Коротко
Google выпускает Gemini 3.1 Flash TTS, усовершенствованную модель преобразования текста в речь с улучшенным управлением, выразительностью и многоязычной поддержкой для голосовых приложений, использующих искусственный интеллект.

Технологическая компания Google объявили о выпуске Gemini 3.1 Flash Text-to-Speech (TTS), модели синтеза речи нового поколения, разработанной для повышения управляемости, выразительности и качества вывода для разработчиков, предприятий и конечных пользователей, создающих аудиоприложения на основе искусственного интеллекта.
В настоящее время ведётся развертывание Gemini 3.1 Flash TTS на нескольких платформах Google. Модель доступна в режиме предварительного просмотра для разработчиков через API Gemini и Google AI Studio, а корпоративные пользователи могут получить к ней доступ в режиме предварительного просмотра через Vertex AI. Также внедряется интеграция для пользователей Google Workspace через Google Vids, что расширяет доступность модели как для потребительского, так и для профессионального сегмента.
Обновленная система представляет собой шаг вперед в области генерации синтетических голосов, и, по сообщениям Google, наблюдается заметное улучшение естественности и выразительности. Согласно независимым сравнительным тестам, проведенным компанией Artificial Analysis, которая оценивает большие объемы данных о предпочтениях людей для речевых моделей, Gemini 3.1 Flash TTS достигла показателя Elo в 1,211 баллов. Эта же оценка относит модель к высокопроизводительной категории, сочетающей высокое качество речи с относительно эффективными характеристиками стоимости. Система также поддерживает более 70 языков и включает в себя функциональность диалога с несколькими говорящими, а также точные параметры управления, основанные на вводе естественного языка.
Расширенные возможности управления и творческого подхода к генерации речи.
Ключевой особенностью релиза является внедрение аудиотегов — механизма, позволяющего пользователям более точно направлять речевой вывод, встраивая структурированные инструкции непосредственно в текстовые подсказки. Эти элементы управления позволяют корректировать темп, тон и стиль голоса в рамках единого рабочего процесса генерации. Система также поддерживает многоуровневое управление, что позволяет разработчикам... defiВ зависимости от контекста сцены, назначайте роли говорящих с помощью настраиваемых аудиопрофилей и изменяйте атрибуты подачи информации как на глобальном уровне, так и на уровне предложений.
В корпоративных средах, использующих Vertex AI, эти элементы управления предназначены для поддержки более сложных сценариев использования в производстве, включая масштабируемую генерацию голоса для приложений, требующих согласованных голосов персонажей или динамических диалоговых систем. Интеграция также включает в себя функцию экспорта, позволяющую преобразовывать сгенерированные конфигурации в форматы, готовые к использованию API, для развертывания на различных платформах и сервисах.
Данная модель позиционируется как подходящая для глобального развертывания, демонстрируя стабильную работу более чем на 70 языках. Эта многоязычная возможность сочетается с улучшенным контролем просодии, что позволяет получать более локализованные и естественные по звучанию речевые образы в различных языковых контекстах.
Первые отзывы разработчиков и корпоративных пользователей, полученные в ходе тестирования, показали повышение точности голосового оформления и большую гибкость в формировании выразительного вывода. Использование аудиотегов было отмечено как важное дополнение для создания более сложных речевых взаимодействий, особенно в сценариях, требующих генерации звука, основанного на персонажах или повествовании.
Весь аудиовыход, созданный с помощью Gemini 3.1 Flash TTS, содержит водяные знаки SynthID. Эта система вводит незаметный идентификатор в сгенерированный аудиоконтент, позволяя обнаруживать медиафайлы, созданные с помощью ИИ, и поддерживая усилия по повышению подлинности контента и снижению рисков неправомерного использования.
Условия использования
В соответствии с Руководство трастового проектаОбратите внимание, что информация, представленная на этой странице, не предназначена и не должна интерпретироваться как юридическая, налоговая, инвестиционная, финансовая или любая другая форма консультации. Важно инвестировать только то, что вы можете позволить себе потерять, и обращаться за независимой финансовой консультацией, если у вас есть какие-либо сомнения. Для получения дополнительной информации мы предлагаем обратиться к положениям и условиям, а также к страницам справки и поддержки, предоставленным эмитентом или рекламодателем. MetaversePost стремится предоставлять точную и объективную отчетность, однако рыночные условия могут быть изменены без предварительного уведомления.
Об авторе
Алиса, преданный журналист MPostспециализируется на криптовалютах, искусственном интеллекте, инвестициях и обширной сфере... Web3. Внимательно следя за новыми тенденциями и технологиями, она всесторонне освещает события, информируя и вовлекая читателей в постоянно развивающуюся среду цифровых финансов.
Другие статьи
Алиса, преданный журналист MPostспециализируется на криптовалютах, искусственном интеллекте, инвестициях и обширной сфере... Web3. Внимательно следя за новыми тенденциями и технологиями, она всесторонне освещает события, информируя и вовлекая читателей в постоянно развивающуюся среду цифровых финансов.



