รายงานข่าว เทคโนโลยี
April 16, 2026

Google เปิดตัว Gemini 3.1 Flash TTS: ยุคใหม่ของการสร้างเสียงพูดด้วย AI ที่สมจริงและควบคุมได้อย่างสมบูรณ์แบบ

ในบทสรุป

Google เปิดตัว Gemini 3.1 Flash TTS ซึ่งเป็นโมเดลแปลงข้อความเป็นเสียงขั้นสูงที่มีการควบคุม การแสดงออก และรองรับหลายภาษาที่ดีขึ้น สำหรับแอปพลิเคชันเสียงที่ขับเคลื่อนด้วย AI

Google เปิดตัว Gemini 3.1 Flash TTS: ยุคใหม่ของการสร้างเสียงพูดด้วย AI ที่สมจริงและควบคุมได้อย่างสมบูรณ์แบบ

บริษัท เทคโนโลยี Google ประกาศเปิดตัว Gemini 3.1 Flash Text-to-Speech (TTS) ซึ่งเป็นโมเดลการสังเคราะห์เสียงพูดรุ่นใหม่ที่ออกแบบมาเพื่อปรับปรุงการควบคุม การแสดงออก และคุณภาพของเสียงพูดสำหรับนักพัฒนา องค์กร และผู้ใช้ปลายทางที่สร้างแอปพลิเคชันเสียงที่ขับเคลื่อนด้วย AI

ขณะนี้ Google กำลังทยอยเปิดใช้งาน Gemini 3.1 Flash TTS บนแพลตฟอร์มต่างๆ โดยนักพัฒนาสามารถใช้งานเวอร์ชันพรีวิวได้ผ่าน Gemini API และ Google AI Studio ส่วนผู้ใช้ระดับองค์กรสามารถเข้าถึงเวอร์ชันพรีวิวได้ผ่าน Vertex AI นอกจากนี้ยังมีการเพิ่มการผสานรวมสำหรับผู้ใช้ Google Workspace ผ่าน Google Vids เพื่อขยายการใช้งานโมเดลนี้ให้ครอบคลุมทั้งผู้ใช้ทั่วไปและผู้ใช้ระดับมืออาชีพ

ระบบที่ได้รับการปรับปรุงใหม่นี้แสดงถึงความก้าวหน้าในการสร้างเสียงสังเคราะห์ โดย Google รายงานว่ามีการปรับปรุงที่วัดผลได้ในด้านความเป็นธรรมชาติและความสามารถในการแสดงออก ตามการเปรียบเทียบประสิทธิภาพโดยอิสระจาก Artificial Analysis ซึ่งประเมินข้อมูลความชอบของมนุษย์ขนาดใหญ่สำหรับแบบจำลองเสียงพูด Gemini 3.1 Flash TTS ได้คะแนน Elo 1,211 การประเมินเดียวกันนี้จัดให้แบบจำลองอยู่ในหมวดหมู่ประสิทธิภาพสูง โดยผสมผสานคุณภาพเสียงพูดที่ยอดเยี่ยมเข้ากับคุณลักษณะด้านต้นทุนที่มีประสิทธิภาพเมื่อเทียบกับระบบอื่น ระบบยังรองรับมากกว่า 70 ภาษาและมีฟังก์ชันการสนทนาแบบหลายผู้พูด พร้อมด้วยตัวเลือกการควบคุมที่ละเอียดอ่อนซึ่งขับเคลื่อนโดยการป้อนข้อมูลภาษาธรรมชาติ

การควบคุมที่ขยายเพิ่มเติมและทิศทางการสร้างสรรค์สำหรับการสร้างเสียงพูด

คุณสมบัติสำคัญอย่างหนึ่งของเวอร์ชันนี้คือการแนะนำแท็กเสียง ซึ่งเป็นกลไกที่ช่วยให้ผู้ใช้สามารถควบคุมการแสดงผลเสียงได้อย่างแม่นยำยิ่งขึ้น โดยการฝังคำสั่งที่มีโครงสร้างลงในข้อความโดยตรง การควบคุมเหล่านี้ช่วยให้สามารถปรับจังหวะ น้ำเสียง และรูปแบบการพูดได้ภายในเวิร์กโฟลว์การสร้างข้อความเดียว ระบบยังรองรับการกำหนดทิศทางแบบหลายชั้น ทำให้ผู้พัฒนาสามารถ defiในบริบทของฉาก ให้กำหนดบทบาทของผู้พูดผ่านโปรไฟล์เสียงที่กำหนดค่าได้ และแก้ไขคุณลักษณะการส่งเสียงได้ทั้งในระดับโดยรวมและระดับประโยค

ในสภาพแวดล้อมระดับองค์กรที่ใช้ Vertex AI การควบคุมเหล่านี้มีจุดประสงค์เพื่อรองรับกรณีการใช้งานขั้นสูงในการผลิต รวมถึงการสร้างเสียงที่ปรับขนาดได้สำหรับแอปพลิเคชันที่ต้องการเสียงตัวละครที่สม่ำเสมอหรือระบบบทสนทนาแบบไดนามิก การผสานรวมยังรวมถึงฟังก์ชันการส่งออก ซึ่งช่วยให้สามารถแปลงการกำหนดค่าที่สร้างขึ้นเป็นรูปแบบที่พร้อมใช้งาน API เพื่อนำไปใช้งานบนแพลตฟอร์มและบริการต่างๆ ได้

โมเดลนี้ได้รับการออกแบบให้เหมาะสมสำหรับการใช้งานในระดับโลก โดยมีประสิทธิภาพที่สม่ำเสมอในกว่า 70 ภาษา ความสามารถในการรองรับหลายภาษานี้ ผสานรวมกับการควบคุมจังหวะและน้ำเสียงที่ได้รับการปรับปรุง ทำให้สามารถสร้างเสียงพูดที่เป็นธรรมชาติและเหมาะสมกับบริบททางภาษาต่างๆ ได้ดียิ่งขึ้น

ผลตอบรับจากการทดสอบเบื้องต้นจากนักพัฒนาและผู้ใช้ระดับองค์กรบ่งชี้ว่า การออกแบบเสียงมีความแม่นยำมากขึ้นและมีความยืดหยุ่นมากขึ้นในการกำหนดรูปแบบการแสดงออกทางอารมณ์ การใช้แท็กเสียงได้รับการเน้นย้ำว่าเป็นส่วนเสริมที่สำคัญสำหรับการสร้างปฏิสัมพันธ์ด้วยเสียงพูดที่ซับซ้อนยิ่งขึ้น โดยเฉพาะอย่างยิ่งในสถานการณ์ที่ต้องการการสร้างเสียงที่ขับเคลื่อนด้วยตัวละครหรือเรื่องราว

เอาต์พุตเสียงทั้งหมดที่สร้างขึ้นผ่าน Gemini 3.1 Flash TTS จะฝังเทคโนโลยีลายน้ำ SynthID ไว้ ระบบนี้จะเพิ่มตัวระบุที่ไม่สามารถมองเห็นได้ลงในเนื้อหาเสียงที่สร้างขึ้น ทำให้สามารถตรวจจับสื่อที่สร้างโดย AI และสนับสนุนความพยายามในการปรับปรุงความถูกต้องของเนื้อหาและลดความเสี่ยงในการนำไปใช้ในทางที่ผิด

คีย์เวิร์ด:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

อลิสา นักข่าวผู้ทุ่มเทของ MPostเชี่ยวชาญด้านคริปโตเคอร์เรนซี ปัญญาประดิษฐ์ การลงทุน และขอบเขตอันกว้างขวางของ... Web3- ด้วยสายตาที่กระตือรือร้นต่อแนวโน้มและเทคโนโลยีที่เกิดขึ้นใหม่ เธอจึงนำเสนอความครอบคลุมที่ครอบคลุมเพื่อแจ้งและดึงดูดผู้อ่านเกี่ยวกับภูมิทัศน์ทางการเงินดิจิทัลที่พัฒนาอยู่ตลอดเวลา

บทความอื่น ๆ
อลิสา เดวิดสัน
อลิสา เดวิดสัน

อลิสา นักข่าวผู้ทุ่มเทของ MPostเชี่ยวชาญด้านคริปโตเคอร์เรนซี ปัญญาประดิษฐ์ การลงทุน และขอบเขตอันกว้างขวางของ... Web3- ด้วยสายตาที่กระตือรือร้นต่อแนวโน้มและเทคโนโลยีที่เกิดขึ้นใหม่ เธอจึงนำเสนอความครอบคลุมที่ครอบคลุมเพื่อแจ้งและดึงดูดผู้อ่านเกี่ยวกับภูมิทัศน์ทางการเงินดิจิทัลที่พัฒนาอยู่ตลอดเวลา

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

ความสงบก่อนพายุโซลานา: แผนภูมิ วาฬ และสัญญาณบนเชนบอกอะไรเราบ้างในตอนนี้

Solana ได้แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่ง ซึ่งขับเคลื่อนโดยการเพิ่มขึ้นของการนำไปใช้ ความสนใจของสถาบัน และความร่วมมือที่สำคัญ ในขณะที่เผชิญกับศักยภาพ ...

รู้เพิ่มเติม

Crypto ในเดือนเมษายน 2025: แนวโน้มสำคัญ การเปลี่ยนแปลง และสิ่งที่จะเกิดขึ้นต่อไป

ในเดือนเมษายน พ.ศ. 2025 พื้นที่คริปโตมุ่งเน้นไปที่การเสริมสร้างโครงสร้างพื้นฐานหลัก โดย Ethereum กำลังเตรียมพร้อมสำหรับ Pectra ...

รู้เพิ่มเติม
อ่านเพิ่มเติม
อ่านเพิ่มเติม
Aptos และ NETSTARS ร่วมมือกันเพื่อพัฒนาโครงการให้ดียิ่งขึ้น Web3 โครงสร้างพื้นฐานการชำระเงินและการชำระบัญชีด้วย Stablecoin
รายงานข่าว เทคโนโลยี
Aptos และ NETSTARS ร่วมมือกันเพื่อพัฒนาโครงการให้ดียิ่งขึ้น Web3 โครงสร้างพื้นฐานการชำระเงินและการชำระบัญชีด้วย Stablecoin
May 8, 2026
Google เปิดตัวแพลตฟอร์มด้านสุขภาพที่ขับเคลื่อนด้วย AI พร้อมด้วย Gemini Coach และอุปกรณ์สวมใส่รุ่นใหม่ Fitbit Air
รายงานข่าว เทคโนโลยี
Google เปิดตัวแพลตฟอร์มด้านสุขภาพที่ขับเคลื่อนด้วย AI พร้อมด้วย Gemini Coach และอุปกรณ์สวมใส่รุ่นใหม่ Fitbit Air
May 8, 2026
HSC Asset Management ฮ่องกง: เจาะลึกการปรับโฉมการลงทุนในเอเชีย เมื่อตลาดทุน ตลาดคริปโต และตลาดเอกชนมาบรรจบกัน
แฮ็คซีซั่นส์ สัมภาษณ์ คอร์สเรียนเพื่อการทำงานหรือธุรกิจ ไลฟ์สไตล์ เทคโนโลยี
HSC Asset Management ฮ่องกง: เจาะลึกการปรับโฉมการลงทุนในเอเชีย เมื่อตลาดทุน ตลาดคริปโต และตลาดเอกชนมาบรรจบกัน
May 8, 2026
ใหม่ OpenAI โมเดลเสียงช่วยเสริมศักยภาพผู้ช่วยเสียงแบบเรียลไทม์ พร้อมความสามารถในการแปลหลายภาษาและระบบประมวลผลข้อมูลแบบสตรีมมิ่ง
รายงานข่าว เทคโนโลยี
ใหม่ OpenAI โมเดลเสียงช่วยเสริมศักยภาพผู้ช่วยเสียงแบบเรียลไทม์ พร้อมความสามารถในการแปลหลายภาษาและระบบประมวลผลข้อมูลแบบสตรีมมิ่ง
May 8, 2026
CRYPTOMERIA LABS PTE. บจก.