גוגל חושפת את Gemini 3.1 Flash TTS: עידן חדש של יצירת דיבור בינה מלאכותית היפר-ריאליסטית וניתנת לשליטה מלאה
בקיצור
גוגל משחררת את Gemini 3.1 Flash TTS, מודל טקסט-לדיבור מתקדם עם שליטה משופרת, יכולת הבעה ותמיכה רב-לשונית עבור יישומי קול המונעים על ידי בינה מלאכותית.

חברת טכנולוגיה Google הכריזה על השקת Gemini 3.1 Flash Text-to-Speech (TTS), מודל סינתזת דיבור מדור חדש שנועד לשפר את יכולת הבקרה, ההבעה ואיכות הפלט עבור מפתחים, ארגונים ומשתמשי קצה הבונים יישומי אודיו מונעי בינה מלאכותית.
פריסת Gemini 3.1 Flash TTS נמצאת כעת בעיצומה במספר פלטפורמות של גוגל. המודל זמין בתצוגה מקדימה למפתחים דרך Gemini API ו-Google AI Studio, בעוד שמשתמשים ארגוניים יכולים לגשת אליו בתצוגה מקדימה דרך Vertex AI. שילוב מוצג גם עבור משתמשי Google Workspace דרך Google Vids, מה שמרחיב את זמינות המודל בסביבות צרכניות ומקצועיות.
המערכת המעודכנת מייצגת התקדמות ביצירת קול סינתטי, כאשר גוגל מדווחת על שיפורים מדידים בטבעיות וביכולת ההבעה. על פי בדיקה עצמאית של Artificial Analysis, אשר מעריכה נתוני העדפה אנושית בקנה מידה גדול עבור מודלי דיבור, Gemini 3.1 Flash TTS השיגה ציון Elo של 1,211. אותה הערכה מציבה את המודל בקטגוריית ביצועים גבוהים המשלבת איכות דיבור חזקה עם מאפייני עלות יעילים יחסית. המערכת תומכת גם ביותר מ-70 שפות וכוללת פונקציונליות דיאלוג מרובת דוברים, לצד אפשרויות בקרה מדויקות המונעות על ידי קלט שפה טבעית.
בקרות מורחבות וכיוון יצירתי ליצירת דיבור
מאפיין מרכזי של הגרסה החדשה הוא הצגת תגי שמע, מנגנון המאפשר למשתמשים להנחות את פלט הדיבור בצורה מדויקת יותר על ידי הטמעת הוראות מובנות ישירות בהנחיות טקסט. פקדים אלה מאפשרים התאמות לקצב, לטון ולסגנון הקולי בתוך תהליך עבודה של דור יחיד. המערכת תומכת גם בהנחיה שכבתית, המאפשרת למפתחים... defiלשנות את הקשר הסצנה, להקצות תפקידי דובר באמצעות פרופילי שמע הניתנים להגדרה ולשנות מאפייני הגשה הן ברמה הגלובלית והן ברמה המשפטית.
בסביבות ארגוניות המשתמשות בבינה מלאכותית של Vertex, בקרות אלו נועדו לתמוך במקרי שימוש מתקדמים יותר בייצור, כולל יצירת קול ניתנת להרחבה עבור יישומים הדורשים קולות תווים עקביים או מערכות דיאלוג דינמיות. האינטגרציה כוללת גם פונקציונליות ייצוא, המאפשרת להמיר תצורות שנוצרו לפורמטים מוכנים ל-API לפריסה על פני פלטפורמות ושירותים שונים.
המודל הוצב כמתאים לפריסה בקנה מידה עולמי, עם ביצועים עקביים ביותר מ-70 שפות. יכולת רב-לשונית זו משולבת עם שליטה משופרת בפרוזודיה, המאפשרת פלט דיבור מקומי וטבעי יותר בהקשרים לשוניים שונים.
משוב מוקדם מבדיקות של מפתחים ומשתמשים ארגוניים הצביע על דיוק מוגבר בעיצוב הקול וגמישות רבה יותר בעיצוב הפלט האקספרסיבי. השימוש בתגיות שמע הודגש כתוספת משמעותית לבניית אינטראקציות מדוברות מורכבות יותר, במיוחד בתרחישים הדורשים יצירת שמע מונחה דמויות או מבוססת על סיפור.
כל פלט האודיו שנוצר באמצעות Gemini 3.1 Flash TTS מוטמע בטכנולוגיית סימון מים SynthID. מערכת זו מציגה מזהה בלתי מורגש בתוך תוכן האודיו שנוצר, המאפשר זיהוי של מדיה שנוצרה על ידי בינה מלאכותית ותומכת במאמצים לשיפור אותנטיות התוכן ולצמצום סיכוני שימוש לרעה.
כתב ויתור
בקנה אחד עם הנחיות פרויקט אמון, אנא שים לב שהמידע המסופק בדף זה אינו מיועד ואין לפרש אותו כייעוץ משפטי, מס, השקעות, פיננסי או כל צורה אחרת של ייעוץ. חשוב להשקיע רק את מה שאתה יכול להרשות לעצמך להפסיד ולפנות לייעוץ פיננסי עצמאי אם יש לך ספק. למידע נוסף, אנו מציעים להתייחס לתנאים ולהגבלות וכן לדפי העזרה והתמיכה שסופקו על ידי המנפיק או המפרסם. MetaversePost מחויבת לדיווח מדויק וחסר פניות, אך תנאי השוק עשויים להשתנות ללא הודעה מוקדמת.
על המחבר
אליסה, עיתונאית מסורה ב- MPost, מתמחה בקריפטו, בינה מלאכותית, השקעות והתחום הנרחב של Web3. עם עין חדה לטרנדים וטכנולוגיות מתפתחות, היא מספקת סיקור מקיף כדי ליידע ולערב את הקוראים בנוף ההולך ומתפתח של מימון דיגיטלי.
מאמרים נוספים
אליסה, עיתונאית מסורה ב- MPost, מתמחה בקריפטו, בינה מלאכותית, השקעות והתחום הנרחב של Web3. עם עין חדה לטרנדים וטכנולוגיות מתפתחות, היא מספקת סיקור מקיף כדי ליידע ולערב את הקוראים בנוף ההולך ומתפתח של מימון דיגיטלי.



