Google presenta Gemini 3.1 Flash TTS: Una nueva era de generación de voz mediante IA hiperrealista y totalmente controlable.
En Resumen
Google lanza Gemini 3.1 Flash TTS, un modelo avanzado de conversión de texto a voz con control, expresividad y soporte multilingüe mejorados para aplicaciones de voz basadas en inteligencia artificial.

Empresa de tecnología Google Se ha anunciado el lanzamiento de Gemini 3.1 Flash Text-to-Speech (TTS), un modelo de síntesis de voz de nueva generación diseñado para mejorar la controlabilidad, la expresividad y la calidad de salida para desarrolladores, empresas y usuarios finales que crean aplicaciones de audio basadas en inteligencia artificial.
El despliegue de Gemini 3.1 Flash TTS está en marcha en diversas plataformas de Google. El modelo está disponible en versión preliminar para desarrolladores a través de la API de Gemini y Google AI Studio, mientras que los usuarios empresariales pueden acceder a él en versión preliminar mediante Vertex AI. También se está implementando la integración para usuarios de Google Workspace a través de Google Vids, ampliando así la disponibilidad del modelo tanto para usuarios domésticos como profesionales.
El sistema actualizado representa un avance en la generación de voz sintética, y Google informa de mejoras medibles en naturalidad y capacidad expresiva. Según una evaluación comparativa independiente realizada por Artificial Analysis, que analiza grandes volúmenes de datos de preferencias humanas para modelos de voz, Gemini 3.1 Flash TTS obtuvo una puntuación Elo de 1,211. Esta misma evaluación sitúa al modelo en una categoría de alto rendimiento, combinando una excelente calidad de voz con características de coste relativamente eficientes. El sistema también admite más de 70 idiomas e incluye funcionalidad de diálogo con múltiples interlocutores, junto con opciones de control detalladas basadas en la entrada de lenguaje natural.
Controles ampliados y dirección creativa para la generación de voz.
Una característica clave de la versión es la introducción de etiquetas de audio, un mecanismo que permite a los usuarios guiar la salida de voz con mayor precisión al incrustar instrucciones estructuradas directamente en las indicaciones de texto. Estos controles permiten ajustar el ritmo, el tono y el estilo vocal dentro de un único flujo de trabajo de generación. El sistema también admite la dirección por capas, lo que permite a los desarrolladores defiEn el contexto de la escena, asigne roles de orador mediante perfiles de audio configurables y modifique los atributos de entrega tanto a nivel global como de oración.
En entornos empresariales que utilizan Vertex AI, estos controles están diseñados para admitir casos de uso de producción más avanzados, como la generación de voz escalable para aplicaciones que requieren voces de personajes consistentes o sistemas de diálogo dinámicos. La integración también incluye la función de exportación, que permite convertir las configuraciones generadas a formatos compatibles con API para su implementación en diferentes plataformas y servicios.
El modelo se ha posicionado como idóneo para su implementación a escala global, con un rendimiento constante en más de 70 idiomas. Esta capacidad multilingüe se combina con un control de prosodia mejorado, lo que permite obtener resultados de voz más localizados y naturales en diferentes contextos lingüísticos.
Las primeras pruebas realizadas por desarrolladores y usuarios empresariales han revelado una mayor precisión en el diseño de voz y una mayor flexibilidad para moldear la expresión oral. El uso de etiquetas de audio se ha destacado como una mejora significativa para la creación de interacciones habladas más complejas, especialmente en escenarios que requieren la generación de audio basada en personajes o narrativas.
Todo el audio generado mediante Gemini 3.1 Flash TTS incorpora la tecnología de marca de agua SynthID. Este sistema introduce un identificador imperceptible en el contenido de audio generado, lo que permite detectar el contenido multimedia generado por IA y contribuye a mejorar la autenticidad del contenido y mitigar los riesgos de uso indebido.
Renuncia de responsabilidad:
En línea con la Directrices del Proyecto Confianza, tenga en cuenta que la información proporcionada en esta página no pretende ser ni debe interpretarse como asesoramiento legal, fiscal, de inversión, financiero o de cualquier otro tipo. Es importante invertir sólo lo que pueda permitirse perder y buscar asesoramiento financiero independiente si tiene alguna duda. Para mayor información sugerimos consultar los términos y condiciones así como las páginas de ayuda y soporte proporcionadas por el emisor o anunciante. MetaversePost se compromete a brindar informes precisos e imparciales, pero las condiciones del mercado están sujetas a cambios sin previo aviso.
Sobre la autora
Alisa, una dedicada periodista del MPost, se especializa en criptomonedas, IA, inversiones y el amplio campo de Web3. Con buen ojo para las tendencias y tecnologías emergentes, ofrece una cobertura completa para informar e involucrar a los lectores en el panorama en constante evolución de las finanzas digitales.
Más artículos
Alisa, una dedicada periodista del MPost, se especializa en criptomonedas, IA, inversiones y el amplio campo de Web3. Con buen ojo para las tendencias y tecnologías emergentes, ofrece una cobertura completa para informar e involucrar a los lectores en el panorama en constante evolución de las finanzas digitales.



