گزارش خبری تکنولوژی
آوریل 16، 2026

گوگل از Gemini 3.1 Flash TTS رونمایی کرد: عصر جدیدی از تولید گفتار هوش مصنوعی فوق واقع‌گرایانه و کاملاً قابل کنترل

به طور خلاصه

گوگل Gemini 3.1 Flash TTS را منتشر کرد، یک مدل پیشرفته تبدیل متن به گفتار با کنترل، بیان بهتر و پشتیبانی چندزبانه برای برنامه‌های صوتی مبتنی بر هوش مصنوعی.

گوگل از Gemini 3.1 Flash TTS رونمایی کرد: عصر جدیدی از تولید گفتار هوش مصنوعی فوق واقع‌گرایانه و کاملاً قابل کنترل

شرکت فناوری گوگل از انتشار Gemini 3.1 Flash Text-to-Speech (TTS) خبر داد، یک مدل سنتز گفتار نسل جدید که برای بهبود کنترل‌پذیری، رسایی و کیفیت خروجی برای توسعه‌دهندگان، شرکت‌ها و کاربران نهایی که برنامه‌های صوتی مبتنی بر هوش مصنوعی می‌سازند، طراحی شده است.

عرضه‌ی Gemini 3.1 Flash TTS در حال حاضر در چندین پلتفرم گوگل در حال انجام است. این مدل از طریق Gemini API و Google AI Studio به صورت پیش‌نمایش برای توسعه‌دهندگان در دسترس است، در حالی که کاربران سازمانی می‌توانند از طریق Vertex AI به صورت پیش‌نمایش به آن دسترسی داشته باشند. ادغام نیز از طریق Google Vids برای کاربران Google Workspace معرفی شده است و دسترسی به این مدل را در محیط‌های مصرفی و حرفه‌ای گسترش می‌دهد.

سیستم به‌روزرسانی‌شده نشان‌دهنده پیشرفتی در تولید صدای مصنوعی است و گوگل بهبودهای قابل اندازه‌گیری در طبیعی بودن و قابلیت بیان را گزارش می‌دهد. طبق معیارسنجی مستقل توسط Artificial Analysis، که داده‌های ترجیحی انسان در مقیاس بزرگ را برای مدل‌های گفتاری ارزیابی می‌کند، Gemini 3.1 Flash TTS امتیاز Elo 1,211 را کسب کرده است. همین ارزیابی، مدل را در دسته‌ای با عملکرد بالا قرار می‌دهد که کیفیت گفتار قوی را با ویژگی‌های هزینه نسبتاً کارآمد ترکیب می‌کند. این سیستم همچنین از بیش از 70 زبان پشتیبانی می‌کند و شامل قابلیت گفتگوی چند گوینده، در کنار گزینه‌های کنترل دقیق مبتنی بر ورودی‌های زبان طبیعی است.

کنترل‌های گسترده و جهت‌دهی خلاقانه برای تولید گفتار

یکی از ویژگی‌های کلیدی این نسخه، معرفی برچسب‌های صوتی است، مکانیزمی که به کاربران اجازه می‌دهد با جاسازی دستورالعمل‌های ساختاریافته مستقیماً در پیام‌های متنی، خروجی گفتار را دقیق‌تر هدایت کنند. این کنترل‌ها امکان تنظیم سرعت، لحن و سبک صدا را در یک گردش کار نسل واحد فراهم می‌کنند. این سیستم همچنین از جهت‌دهی لایه‌ای پشتیبانی می‌کند و به توسعه‌دهندگان اجازه می‌دهد تا defiمتن صحنه جدید، نقش‌های گوینده را از طریق پروفایل‌های صوتی قابل تنظیم تعیین کنید و ویژگی‌های تحویل را هم در سطح کلی و هم در سطح جمله تغییر دهید.

در محیط‌های سازمانی که از Vertex AI استفاده می‌کنند، این کنترل‌ها برای پشتیبانی از موارد استفاده پیشرفته‌تر در تولید، از جمله تولید صدای مقیاس‌پذیر برای برنامه‌هایی که به صدای شخصیت‌های سازگار یا سیستم‌های گفتگوی پویا نیاز دارند، در نظر گرفته شده‌اند. این ادغام همچنین شامل قابلیت صادرات است که امکان تبدیل پیکربندی‌های تولید شده به فرمت‌های آماده API را برای استقرار در پلتفرم‌ها و سرویس‌های مختلف فراهم می‌کند.

این مدل به گونه‌ای طراحی شده است که برای استقرار در مقیاس جهانی مناسب باشد و عملکرد ثابتی در بیش از ۷۰ زبان داشته باشد. این قابلیت چندزبانه با کنترل پیشرفته‌ی عروض ترکیب شده و خروجی‌های گفتاری با صدای طبیعی‌تر و محلی‌تر را در زمینه‌های زبانی مختلف امکان‌پذیر می‌کند.

بازخورد آزمایش‌های اولیه از توسعه‌دهندگان و کاربران سازمانی، نشان‌دهنده افزایش دقت در طراحی صدا و انعطاف‌پذیری بیشتر در شکل‌دهی خروجی گویا بوده است. استفاده از برچسب‌های صوتی به عنوان یک افزودنی مهم برای ساخت تعاملات گفتاری پیچیده‌تر، به ویژه در سناریوهایی که نیاز به تولید صدای شخصیت‌محور یا روایت‌محور دارند، برجسته شده است.

تمام خروجی‌های صوتی تولید شده از طریق Gemini 3.1 Flash TTS به فناوری واترمارک SynthID مجهز شده‌اند. این سیستم یک شناسه نامحسوس را در محتوای صوتی تولید شده معرفی می‌کند که امکان تشخیص رسانه‌های تولید شده توسط هوش مصنوعی را فراهم کرده و از تلاش‌ها برای بهبود اصالت محتوا و کاهش خطرات سوءاستفاده پشتیبانی می‌کند.

برچسب ها:

رفع مسئولیت

در خط با دستورالعمل های پروژه اعتماد، لطفاً توجه داشته باشید که اطلاعات ارائه شده در این صفحه به عنوان مشاوره حقوقی، مالیاتی، سرمایه گذاری، مالی یا هر شکل دیگری در نظر گرفته نشده است و نباید تفسیر شود. مهم است که فقط در موردی سرمایه گذاری کنید که توانایی از دست دادن آن را دارید و در صورت شک و تردید به دنبال مشاوره مالی مستقل باشید. برای کسب اطلاعات بیشتر، پیشنهاد می کنیم به شرایط و ضوابط و همچنین صفحات راهنمایی و پشتیبانی ارائه شده توسط صادرکننده یا تبلیغ کننده مراجعه کنید. MetaversePost متعهد به گزارش دقیق و بی طرفانه است، اما شرایط بازار بدون اطلاع قبلی ممکن است تغییر کند.

درباره نویسنده

آلیسا، یک روزنامه نگار اختصاصی در MPost، متخصص در ارزهای دیجیتال، هوش مصنوعی، سرمایه‌گذاری و حوزه گسترده... Web3. او با نگاهی دقیق به روندها و فناوری‌های نوظهور، پوشش جامعی را برای اطلاع‌رسانی و مشارکت خوانندگان در چشم‌انداز همیشه در حال تحول مالی دیجیتال ارائه می‌کند.

مقالات بیشتر
آلیسا دیویدسون
آلیسا دیویدسون

آلیسا، یک روزنامه نگار اختصاصی در MPost، متخصص در ارزهای دیجیتال، هوش مصنوعی، سرمایه‌گذاری و حوزه گسترده... Web3. او با نگاهی دقیق به روندها و فناوری‌های نوظهور، پوشش جامعی را برای اطلاع‌رسانی و مشارکت خوانندگان در چشم‌انداز همیشه در حال تحول مالی دیجیتال ارائه می‌کند.

Hot Stories
به خبرنامه ما بپیوندید.
آخرین اخبار

آرامش قبل از طوفان سولانا: نمودارها، نهنگ‌ها و سیگنال‌های درون زنجیره‌ای اکنون چه می‌گویند؟

سولانا عملکرد قوی‌ای را نشان داده است که ناشی از افزایش پذیرش، علاقه نهادی و مشارکت‌های کلیدی است، در حالی که با پتانسیل ... روبرو است.

بیشتر بدانید

کریپتو در آوریل ۲۰۲۵: روندهای کلیدی، تغییرات و آنچه در آینده رخ خواهد داد

در آوریل ۲۰۲۵، فضای کریپتو بر تقویت زیرساخت‌های اصلی متمرکز شد و اتریوم برای Pectra آماده می‌شد...

بیشتر بدانید
ادامه مطلب
ادامه مطلب
گیت با تجزیه و تحلیل هوش مصنوعی، داده‌های بلادرنگ و بهبود کارایی تجارت، بازارهای پیش‌بینی را گسترش می‌دهد
گزارش خبری تکنولوژی
گیت با تجزیه و تحلیل هوش مصنوعی، داده‌های بلادرنگ و بهبود کارایی تجارت، بازارهای پیش‌بینی را گسترش می‌دهد
ممکن است 18، 2026
جک یی، نوسانات بیشتر بازار ارزهای دیجیتال را پیش‌بینی می‌کند و خواستار صبر در خرید بیت کوین در زمان افت قیمت می‌شود.
بازارها گزارش خبری تکنولوژی
جک یی، نوسانات بیشتر بازار ارزهای دیجیتال را پیش‌بینی می‌کند و خواستار صبر در خرید بیت کوین در زمان افت قیمت می‌شود.
ممکن است 18، 2026
پل اتریوم وروس مورد سوءاستفاده ۱۱.۵۸ میلیون دلاری قرار گرفت، محققان این نقص را در شکاف اعتبارسنجی بین زنجیره‌ای ردیابی می‌کنند
گزارش خبری تکنولوژی
پل اتریوم وروس مورد سوءاستفاده ۱۱.۵۸ میلیون دلاری قرار گرفت، محققان این نقص را در شکاف اعتبارسنجی بین زنجیره‌ای ردیابی می‌کنند
ممکن است 18، 2026
کمیته بانکداری سنا قانون شفافیت (CLARITY) را تصویب کرد: چرا شبکه‌های غیرمتمرکز شایسته دسته‌بندی قانونی خاص خود هستند؟
نظر کسب و کار تکنولوژی
کمیته بانکداری سنا قانون شفافیت (CLARITY) را تصویب کرد: چرا شبکه‌های غیرمتمرکز شایسته دسته‌بندی قانونی خاص خود هستند؟
ممکن است 15، 2026
CRYPTOMERIA LABS PTE. محدود