VALL-E: โมเดลการอ่านออกเสียงข้อความแบบ zero-shot ใหม่ของ Microsoft สามารถจำลองเสียงของทุกคนได้ในสามวินาที
ในบทสรุป
ด้วยตัวอย่างเสียงใดๆ เพียงสามวินาที โมเดล TTS ที่ใช้หม้อแปลงไฟฟ้า VALL-E สามารถสร้างคำพูดได้ในทุกเสียง.
นี่เป็นความก้าวหน้าที่สำคัญในทิศทางของระบบ TTS ที่ให้เสียงเป็นธรรมชาติมากขึ้น
อย่างไรก็ตาม ไมโครซอฟต์ได้จัดเตรียมตัวอย่างโมเดลบางส่วนที่ใช้งานอยู่ และเห็นได้ชัดว่านี่แสดงถึงการพัฒนาที่สำคัญในเทคโนโลยี TTS
นับตั้งแต่เปิดตัวโมเดลการอ่านออกเสียงข้อความ (TTS) รุ่นแรก นักวิจัยได้มองหาวิธีปรับปรุงวิธีที่ระบบเหล่านี้สร้างเสียงพูด รุ่นล่าสุดจาก Microsoft, วัล-อีเป็นก้าวสำคัญในเรื่องนี้
VALL-E เป็นโมเดล TTS ที่ใช้หม้อแปลงซึ่งสามารถสร้างเสียงพูดเป็นเสียงใดก็ได้หลังจากได้ยินตัวอย่างเสียงนั้นเพียงสามวินาที นี่เป็นการปรับปรุงที่สำคัญกว่ารุ่นก่อนๆ ซึ่งต้องใช้ระยะเวลาการฝึกที่นานกว่ามากเพื่อสร้างเสียงใหม่
บทความที่เกี่ยวข้อง: Microsoft ได้เปิดตัวโมเดลการแพร่กระจายที่สามารถสร้างอวาตาร์ 3 มิติจากภาพถ่ายบุคคลเดียว |
นอกจากนี้ น้ำเสียง เสน่ห์ และสไตล์ของน้ำเสียงยังคงไม่บุบสลายในคำพูดที่สร้างขึ้น นี่เป็นก้าวสำคัญในการทำให้ระบบ TTS ฟังดูเป็นธรรมชาติมากขึ้น
โมเดลนี้ใช้หม้อแปลงไฟฟ้าและมีรูปลักษณ์ Dale-1 อย่าสับสนกับ Dalle-2 ที่มีการแพร่กระจาย รหัสยังขาดอยู่ และผู้ใช้มีความสงสัยว่าพวกเขาจะโพสต์
บทความที่เกี่ยวข้อง: VALL-E ของ Microsoft ดูเหมือนจะเป็นซอฟต์แวร์หลอกลวงที่อันตรายที่สุดเท่าที่เคยมีมา |
อย่างไรก็ตาม Microsoft ได้เปิดตัวตัวอย่างการใช้งานจริงบางส่วน และเห็นได้ชัดว่านี่เป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยี TTS
ตัวอย่าง #1:
ตัวอย่าง #2:
ตัวอย่าง #3:
อ่านเพิ่มเติมเกี่ยวกับ AI:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต