AI Startup MyShell เปิดตัวอัลกอริทึม OpenVoice สำหรับการโคลนเสียงที่แม่นยำ
ในบทสรุป
MyShell สตาร์ทอัพด้าน AI ของแคนาดาประกาศว่าได้ใช้อัลกอริธึม OpenVoice แบบโอเพ่นซอร์สสำหรับการโคลนเสียงแบบทันที
ผู้ตอบ, Voicemod และ อีเลฟเว่นแล็บส์ – สตาร์ทอัพทั้งสามมีสิ่งหนึ่งที่เหมือนกัน – พวกเขาทั้งหมดมีอัลกอริธึมและซอฟต์แวร์ AI สำหรับสร้างโคลนเสียง ตอนนี้ผู้เล่นใหม่สตาร์ทอัพ AI ของแคนาดา มายเชลล์ ประกาศว่าได้ใช้อัลกอริธึม OpenVoice แบบโอเพ่นซอร์สเพื่อการโคลนเสียงแบบทันที
MyShell แบ่งปันการอัปเดตบน แพลตฟอร์มโซเชียลมีเดีย X และกล่าวว่า “โคลนเสียงด้วยความแม่นยำที่ไม่มีใครเทียบได้ พร้อมการควบคุมโทนเสียงอย่างละเอียด ตั้งแต่อารมณ์ไปจนถึงสำเนียง จังหวะ การหยุดชั่วคราว และน้ำเสียง โดยใช้เพียงคลิปเสียงขนาดเล็ก”
ภายใต้ความร่วมมือดังกล่าว นักวิจัยจาก MIT, MyShell.ai และมหาวิทยาลัย Tsinghua ได้เปิดตัว OpenVoice ซึ่งสามารถจำลองเสียงของผู้พูดและสร้างคำพูดใน หลายภาษาโดยใช้เพียงตัวอย่างเสียงสั้นๆ จากต้นฉบับ อีกทั้งยังจับโทนเสียงและสีสันอันเป็นเอกลักษณ์ของเสียงของผู้พูดอีกด้วย
ตามที่บริษัทระบุ อัลกอริธึมจะเพิ่มองค์ประกอบโวหารที่สำคัญ เช่น อารมณ์ สำเนียง จังหวะ การหยุดชั่วคราว และน้ำเสียง องค์ประกอบเหล่านี้มีความสำคัญอย่างยิ่งในการทำให้คำพูดฟังดูสมจริงและสร้างบทสนทนาที่น่าสนใจ ช่วยหลีกเลี่ยงเสียงที่น่าเบื่อที่คุณมักได้รับจากการอ่านออกเสียงข้อความปกติ
โมเดล AI โคลนเสียงทำงานอย่างไร
ใน รายงานการวิจัยOpenVoice แบ่งปันวิธีการที่อยู่เบื้องหลัง AI การโคลนเสียง OpenVoice ประกอบด้วยสองส่วนที่แตกต่างกัน โมเดล AI: โมเดลข้อความเป็นคำพูด (TTS) และ “ตัวแปลงเสียง”
โมเดลนี้สามารถจัดการพารามิเตอร์รูปแบบและภาษาได้ และได้ผ่าน "การฝึกอบรมการใช้ประโยค 30,000 ประโยค" จากภาษาอังกฤษ (ทั้งสำเนียงอเมริกันและอังกฤษ) ผู้พูดภาษาจีนและญี่ปุ่น การฝึกอบรมเกี่ยวข้องกับการติดป้ายกำกับตัวอย่างตามอารมณ์ที่แสดงออกมา และแบบจำลองได้เรียนรู้น้ำเสียง จังหวะ และการหยุดชั่วคราวจากคลิปเสียงเหล่านี้
ในทางกลับกัน โมเดลตัวแปลงโทนเสียงได้รับการฝึกฝนบนชุดข้อมูลขนาดใหญ่ที่มีตัวอย่างเสียงมากกว่า 300,000 ตัวอย่างจากลำโพงที่แตกต่างกันมากกว่า 20,000 ตัว ในทั้งสองกรณี เสียงคำพูดของมนุษย์จะถูกแปลงเป็นหน่วยเสียง ซึ่งเป็นเสียงเฉพาะที่สร้างความแตกต่างของคำ และแสดงโดยใช้การฝังเวกเตอร์
โมเดล TTS ที่ใช้ "ลำโพงฐาน" ผสมผสานกับโทนเสียงที่ได้มาจากเสียงที่บันทึกไว้ของผู้ใช้ในกระบวนการฝึกอบรม เมื่อรวมกันแล้ว ทั้งสองรุ่นนี้สามารถจำลองเสียงของผู้ใช้และปรับเปลี่ยนโทนสี ซึ่งเป็นการแสดงออกทางอารมณ์ที่ถ่ายทอดออกมาเป็นข้อความพูดได้
สตาร์ทอัพก่อตั้งขึ้นในปี 2023 เมื่อปีที่แล้ว MyShell ระดมทุนได้ 5.6 ล้านดอลลาร์ ซึ่งนำโดย INCE Capital และมองเห็นการมีส่วนร่วมของนักลงทุนที่มีชื่อเสียง เช่น Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC และ OP Crypto และอื่นๆ อีกมากมาย
ตามที่บริษัทระบุ เงินทุนดังกล่าวจะช่วยในการพัฒนากรรมสิทธิ์ โมเดล AIการสร้าง Creator Studio ที่ปรับแต่งมาสำหรับแอปที่ใช้ AI เป็นหลัก และการสร้างระบบนิเวศของผู้สร้างที่มีชีวิตชีวาภายในขอบเขตของเทคโนโลยีบล็อกเชน
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Kumar เป็นนักข่าวเทคโนโลยีที่มีประสบการณ์ โดยมีความเชี่ยวชาญเฉพาะด้านในการผสมผสานแบบไดนามิกของ AI/ML เทคโนโลยีการตลาด และสาขาเกิดใหม่ เช่น คริปโต บล็อกเชน และ NFTส. ด้วยประสบการณ์กว่า 3 ปีในอุตสาหกรรมนี้ Kumar ได้สร้างผลงานที่ได้รับการพิสูจน์แล้วในด้านการสร้างสรรค์เรื่องราวที่น่าสนใจ การสัมภาษณ์เชิงลึก และการนำเสนอข้อมูลเชิงลึกที่ครอบคลุม ความเชี่ยวชาญของ Kumar อยู่ที่การผลิตเนื้อหาที่มีผลกระทบสูง รวมถึงบทความ รายงาน และสิ่งพิมพ์วิจัยสำหรับแพลตฟอร์มอุตสาหกรรมที่โดดเด่น ด้วยชุดทักษะเฉพาะตัวที่ผสมผสานความรู้ทางเทคนิคและการเล่าเรื่อง Kumar มีความเป็นเลิศในการสื่อสารแนวคิดทางเทคโนโลยีที่ซับซ้อนไปยังผู้ชมที่หลากหลายในลักษณะที่ชัดเจนและมีส่วนร่วม
บทความอื่น ๆKumar เป็นนักข่าวเทคโนโลยีที่มีประสบการณ์ โดยมีความเชี่ยวชาญเฉพาะด้านในการผสมผสานแบบไดนามิกของ AI/ML เทคโนโลยีการตลาด และสาขาเกิดใหม่ เช่น คริปโต บล็อกเชน และ NFTส. ด้วยประสบการณ์กว่า 3 ปีในอุตสาหกรรมนี้ Kumar ได้สร้างผลงานที่ได้รับการพิสูจน์แล้วในด้านการสร้างสรรค์เรื่องราวที่น่าสนใจ การสัมภาษณ์เชิงลึก และการนำเสนอข้อมูลเชิงลึกที่ครอบคลุม ความเชี่ยวชาญของ Kumar อยู่ที่การผลิตเนื้อหาที่มีผลกระทบสูง รวมถึงบทความ รายงาน และสิ่งพิมพ์วิจัยสำหรับแพลตฟอร์มอุตสาหกรรมที่โดดเด่น ด้วยชุดทักษะเฉพาะตัวที่ผสมผสานความรู้ทางเทคนิคและการเล่าเรื่อง Kumar มีความเป็นเลิศในการสื่อสารแนวคิดทางเทคโนโลยีที่ซับซ้อนไปยังผู้ชมที่หลากหลายในลักษณะที่ชัดเจนและมีส่วนร่วม