گوگل از Gemini 3.1 Flash TTS رونمایی کرد: عصر جدیدی از تولید گفتار هوش مصنوعی فوق واقعگرایانه و کاملاً قابل کنترل
به طور خلاصه
گوگل Gemini 3.1 Flash TTS را منتشر کرد، یک مدل پیشرفته تبدیل متن به گفتار با کنترل، بیان بهتر و پشتیبانی چندزبانه برای برنامههای صوتی مبتنی بر هوش مصنوعی.

شرکت فناوری گوگل از انتشار Gemini 3.1 Flash Text-to-Speech (TTS) خبر داد، یک مدل سنتز گفتار نسل جدید که برای بهبود کنترلپذیری، رسایی و کیفیت خروجی برای توسعهدهندگان، شرکتها و کاربران نهایی که برنامههای صوتی مبتنی بر هوش مصنوعی میسازند، طراحی شده است.
عرضهی Gemini 3.1 Flash TTS در حال حاضر در چندین پلتفرم گوگل در حال انجام است. این مدل از طریق Gemini API و Google AI Studio به صورت پیشنمایش برای توسعهدهندگان در دسترس است، در حالی که کاربران سازمانی میتوانند از طریق Vertex AI به صورت پیشنمایش به آن دسترسی داشته باشند. ادغام نیز از طریق Google Vids برای کاربران Google Workspace معرفی شده است و دسترسی به این مدل را در محیطهای مصرفی و حرفهای گسترش میدهد.
سیستم بهروزرسانیشده نشاندهنده پیشرفتی در تولید صدای مصنوعی است و گوگل بهبودهای قابل اندازهگیری در طبیعی بودن و قابلیت بیان را گزارش میدهد. طبق معیارسنجی مستقل توسط Artificial Analysis، که دادههای ترجیحی انسان در مقیاس بزرگ را برای مدلهای گفتاری ارزیابی میکند، Gemini 3.1 Flash TTS امتیاز Elo 1,211 را کسب کرده است. همین ارزیابی، مدل را در دستهای با عملکرد بالا قرار میدهد که کیفیت گفتار قوی را با ویژگیهای هزینه نسبتاً کارآمد ترکیب میکند. این سیستم همچنین از بیش از 70 زبان پشتیبانی میکند و شامل قابلیت گفتگوی چند گوینده، در کنار گزینههای کنترل دقیق مبتنی بر ورودیهای زبان طبیعی است.
کنترلهای گسترده و جهتدهی خلاقانه برای تولید گفتار
یکی از ویژگیهای کلیدی این نسخه، معرفی برچسبهای صوتی است، مکانیزمی که به کاربران اجازه میدهد با جاسازی دستورالعملهای ساختاریافته مستقیماً در پیامهای متنی، خروجی گفتار را دقیقتر هدایت کنند. این کنترلها امکان تنظیم سرعت، لحن و سبک صدا را در یک گردش کار نسل واحد فراهم میکنند. این سیستم همچنین از جهتدهی لایهای پشتیبانی میکند و به توسعهدهندگان اجازه میدهد تا defiمتن صحنه جدید، نقشهای گوینده را از طریق پروفایلهای صوتی قابل تنظیم تعیین کنید و ویژگیهای تحویل را هم در سطح کلی و هم در سطح جمله تغییر دهید.
در محیطهای سازمانی که از Vertex AI استفاده میکنند، این کنترلها برای پشتیبانی از موارد استفاده پیشرفتهتر در تولید، از جمله تولید صدای مقیاسپذیر برای برنامههایی که به صدای شخصیتهای سازگار یا سیستمهای گفتگوی پویا نیاز دارند، در نظر گرفته شدهاند. این ادغام همچنین شامل قابلیت صادرات است که امکان تبدیل پیکربندیهای تولید شده به فرمتهای آماده API را برای استقرار در پلتفرمها و سرویسهای مختلف فراهم میکند.
این مدل به گونهای طراحی شده است که برای استقرار در مقیاس جهانی مناسب باشد و عملکرد ثابتی در بیش از ۷۰ زبان داشته باشد. این قابلیت چندزبانه با کنترل پیشرفتهی عروض ترکیب شده و خروجیهای گفتاری با صدای طبیعیتر و محلیتر را در زمینههای زبانی مختلف امکانپذیر میکند.
بازخورد آزمایشهای اولیه از توسعهدهندگان و کاربران سازمانی، نشاندهنده افزایش دقت در طراحی صدا و انعطافپذیری بیشتر در شکلدهی خروجی گویا بوده است. استفاده از برچسبهای صوتی به عنوان یک افزودنی مهم برای ساخت تعاملات گفتاری پیچیدهتر، به ویژه در سناریوهایی که نیاز به تولید صدای شخصیتمحور یا روایتمحور دارند، برجسته شده است.
تمام خروجیهای صوتی تولید شده از طریق Gemini 3.1 Flash TTS به فناوری واترمارک SynthID مجهز شدهاند. این سیستم یک شناسه نامحسوس را در محتوای صوتی تولید شده معرفی میکند که امکان تشخیص رسانههای تولید شده توسط هوش مصنوعی را فراهم کرده و از تلاشها برای بهبود اصالت محتوا و کاهش خطرات سوءاستفاده پشتیبانی میکند.
رفع مسئولیت
در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.
درباره نویسنده
آلیسا، یک روزنامه نگار اختصاصی در MPost، متخصص در ارزهای دیجیتال، هوش مصنوعی، سرمایهگذاری و حوزه گسترده... Web3. او با نگاهی دقیق به روندها و فناوریهای نوظهور، پوشش جامعی را برای اطلاعرسانی و مشارکت خوانندگان در چشمانداز همیشه در حال تحول مالی دیجیتال ارائه میکند.
مقالات بیشتر
آلیسا، یک روزنامه نگار اختصاصی در MPost، متخصص در ارزهای دیجیتال، هوش مصنوعی، سرمایهگذاری و حوزه گسترده... Web3. او با نگاهی دقیق به روندها و فناوریهای نوظهور، پوشش جامعی را برای اطلاعرسانی و مشارکت خوانندگان در چشمانداز همیشه در حال تحول مالی دیجیتال ارائه میکند.



