Google เปิดตัว Gemini 3.1 Flash TTS: ยุคใหม่ของการสร้างเสียงพูดด้วย AI ที่สมจริงและควบคุมได้อย่างสมบูรณ์แบบ
ในบทสรุป
Google เปิดตัว Gemini 3.1 Flash TTS ซึ่งเป็นโมเดลแปลงข้อความเป็นเสียงขั้นสูงที่มีการควบคุม การแสดงออก และรองรับหลายภาษาที่ดีขึ้น สำหรับแอปพลิเคชันเสียงที่ขับเคลื่อนด้วย AI

บริษัท เทคโนโลยี Google ประกาศเปิดตัว Gemini 3.1 Flash Text-to-Speech (TTS) ซึ่งเป็นโมเดลการสังเคราะห์เสียงพูดรุ่นใหม่ที่ออกแบบมาเพื่อปรับปรุงการควบคุม การแสดงออก และคุณภาพของเสียงพูดสำหรับนักพัฒนา องค์กร และผู้ใช้ปลายทางที่สร้างแอปพลิเคชันเสียงที่ขับเคลื่อนด้วย AI
ขณะนี้ Google กำลังทยอยเปิดใช้งาน Gemini 3.1 Flash TTS บนแพลตฟอร์มต่างๆ โดยนักพัฒนาสามารถใช้งานเวอร์ชันพรีวิวได้ผ่าน Gemini API และ Google AI Studio ส่วนผู้ใช้ระดับองค์กรสามารถเข้าถึงเวอร์ชันพรีวิวได้ผ่าน Vertex AI นอกจากนี้ยังมีการเพิ่มการผสานรวมสำหรับผู้ใช้ Google Workspace ผ่าน Google Vids เพื่อขยายการใช้งานโมเดลนี้ให้ครอบคลุมทั้งผู้ใช้ทั่วไปและผู้ใช้ระดับมืออาชีพ
ระบบที่ได้รับการปรับปรุงใหม่นี้แสดงถึงความก้าวหน้าในการสร้างเสียงสังเคราะห์ โดย Google รายงานว่ามีการปรับปรุงที่วัดผลได้ในด้านความเป็นธรรมชาติและความสามารถในการแสดงออก ตามการเปรียบเทียบประสิทธิภาพโดยอิสระจาก Artificial Analysis ซึ่งประเมินข้อมูลความชอบของมนุษย์ขนาดใหญ่สำหรับแบบจำลองเสียงพูด Gemini 3.1 Flash TTS ได้คะแนน Elo 1,211 การประเมินเดียวกันนี้จัดให้แบบจำลองอยู่ในหมวดหมู่ประสิทธิภาพสูง โดยผสมผสานคุณภาพเสียงพูดที่ยอดเยี่ยมเข้ากับคุณลักษณะด้านต้นทุนที่มีประสิทธิภาพเมื่อเทียบกับระบบอื่น ระบบยังรองรับมากกว่า 70 ภาษาและมีฟังก์ชันการสนทนาแบบหลายผู้พูด พร้อมด้วยตัวเลือกการควบคุมที่ละเอียดอ่อนซึ่งขับเคลื่อนโดยการป้อนข้อมูลภาษาธรรมชาติ
การควบคุมที่ขยายเพิ่มเติมและทิศทางการสร้างสรรค์สำหรับการสร้างเสียงพูด
คุณสมบัติสำคัญอย่างหนึ่งของเวอร์ชันนี้คือการแนะนำแท็กเสียง ซึ่งเป็นกลไกที่ช่วยให้ผู้ใช้สามารถควบคุมการแสดงผลเสียงได้อย่างแม่นยำยิ่งขึ้น โดยการฝังคำสั่งที่มีโครงสร้างลงในข้อความโดยตรง การควบคุมเหล่านี้ช่วยให้สามารถปรับจังหวะ น้ำเสียง และรูปแบบการพูดได้ภายในเวิร์กโฟลว์การสร้างข้อความเดียว ระบบยังรองรับการกำหนดทิศทางแบบหลายชั้น ทำให้ผู้พัฒนาสามารถ defiในบริบทของฉาก ให้กำหนดบทบาทของผู้พูดผ่านโปรไฟล์เสียงที่กำหนดค่าได้ และแก้ไขคุณลักษณะการส่งเสียงได้ทั้งในระดับโดยรวมและระดับประโยค
ในสภาพแวดล้อมระดับองค์กรที่ใช้ Vertex AI การควบคุมเหล่านี้มีจุดประสงค์เพื่อรองรับกรณีการใช้งานขั้นสูงในการผลิต รวมถึงการสร้างเสียงที่ปรับขนาดได้สำหรับแอปพลิเคชันที่ต้องการเสียงตัวละครที่สม่ำเสมอหรือระบบบทสนทนาแบบไดนามิก การผสานรวมยังรวมถึงฟังก์ชันการส่งออก ซึ่งช่วยให้สามารถแปลงการกำหนดค่าที่สร้างขึ้นเป็นรูปแบบที่พร้อมใช้งาน API เพื่อนำไปใช้งานบนแพลตฟอร์มและบริการต่างๆ ได้
โมเดลนี้ได้รับการออกแบบให้เหมาะสมสำหรับการใช้งานในระดับโลก โดยมีประสิทธิภาพที่สม่ำเสมอในกว่า 70 ภาษา ความสามารถในการรองรับหลายภาษานี้ ผสานรวมกับการควบคุมจังหวะและน้ำเสียงที่ได้รับการปรับปรุง ทำให้สามารถสร้างเสียงพูดที่เป็นธรรมชาติและเหมาะสมกับบริบททางภาษาต่างๆ ได้ดียิ่งขึ้น
ผลตอบรับจากการทดสอบเบื้องต้นจากนักพัฒนาและผู้ใช้ระดับองค์กรบ่งชี้ว่า การออกแบบเสียงมีความแม่นยำมากขึ้นและมีความยืดหยุ่นมากขึ้นในการกำหนดรูปแบบการแสดงออกทางอารมณ์ การใช้แท็กเสียงได้รับการเน้นย้ำว่าเป็นส่วนเสริมที่สำคัญสำหรับการสร้างปฏิสัมพันธ์ด้วยเสียงพูดที่ซับซ้อนยิ่งขึ้น โดยเฉพาะอย่างยิ่งในสถานการณ์ที่ต้องการการสร้างเสียงที่ขับเคลื่อนด้วยตัวละครหรือเรื่องราว
เอาต์พุตเสียงทั้งหมดที่สร้างขึ้นผ่าน Gemini 3.1 Flash TTS จะฝังเทคโนโลยีลายน้ำ SynthID ไว้ ระบบนี้จะเพิ่มตัวระบุที่ไม่สามารถมองเห็นได้ลงในเนื้อหาเสียงที่สร้างขึ้น ทำให้สามารถตรวจจับสื่อที่สร้างโดย AI และสนับสนุนความพยายามในการปรับปรุงความถูกต้องของเนื้อหาและลดความเสี่ยงในการนำไปใช้ในทางที่ผิด
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
อลิสา นักข่าวผู้ทุ่มเทของ MPostเชี่ยวชาญด้านคริปโตเคอร์เรนซี ปัญญาประดิษฐ์ การลงทุน และขอบเขตอันกว้างขวางของ... Web3- ด้วยสายตาที่กระตือรือร้นต่อแนวโน้มและเทคโนโลยีที่เกิดขึ้นใหม่ เธอจึงนำเสนอความครอบคลุมที่ครอบคลุมเพื่อแจ้งและดึงดูดผู้อ่านเกี่ยวกับภูมิทัศน์ทางการเงินดิจิทัลที่พัฒนาอยู่ตลอดเวลา
บทความอื่น ๆ
อลิสา นักข่าวผู้ทุ่มเทของ MPostเชี่ยวชาญด้านคริปโตเคอร์เรนซี ปัญญาประดิษฐ์ การลงทุน และขอบเขตอันกว้างขวางของ... Web3- ด้วยสายตาที่กระตือรือร้นต่อแนวโน้มและเทคโนโลยีที่เกิดขึ้นใหม่ เธอจึงนำเสนอความครอบคลุมที่ครอบคลุมเพื่อแจ้งและดึงดูดผู้อ่านเกี่ยวกับภูมิทัศน์ทางการเงินดิจิทัลที่พัฒนาอยู่ตลอดเวลา



