SingSong: นักวิจัย AI ของ Google ค้นหาวิธีสร้างเพลงเพื่อประกอบกับเสียงร้องที่ป้อนเข้า
ในบทสรุป
ระบบใหม่ที่เรียกว่า SingSong ใช้ความลึก รูปแบบการเรียนรู้ เพื่อสร้างเพลงที่สอดคล้องกับการร้องเพลงมากกว่าระบบที่มีอยู่
นักวิจัยกล่าวว่าระบบนี้สามารถใช้เพื่อสร้างเพลงคาราโอเกะสำหรับนักร้องมืออาชีพหรือช่วยนักร้องสมัครเล่นในการค้นหาเพลงประกอบที่เข้ากับเสียงของพวกเขา
นักวิจัยที่ Google ได้ค้นพบวิธีใช้ปัญญาประดิษฐ์เพื่อสร้างเพลงที่เข้ากันได้กับการร้องเพลง ระบบใหม่นี้เรียกว่า SingSong ใช้โมเดลการเรียนรู้เชิงลึกเพื่อสร้างเสียงคลอที่สอดคล้องกับการร้องเพลงมากกว่าระบบอื่นๆ ที่มีอยู่ นักวิจัยกล่าวว่าระบบนี้สามารถใช้เพื่อสร้างเพลงคาราโอเกะสำหรับนักร้องมืออาชีพหรือช่วยให้นักร้องสมัครเล่นค้นหาดนตรีประกอบที่เหมาะกับเสียงของพวกเขามากขึ้น
ร้องเพลง เป็นระบบที่พัฒนาโดย Google ที่สร้างเพลงบรรเลงประกอบเสียงร้อง อาจช่วยให้ทั้งนักดนตรีและไม่ใช่นักดนตรีมีแนวทางใหม่ง่ายๆ ในการทำเพลงที่มีเสียงของตัวเอง นักพัฒนาสร้างความก้าวหน้าล่าสุดในการแยกแหล่งที่มาของดนตรีและการผลิตเสียงเพื่อให้บรรลุเป้าหมายนี้ นักพัฒนาใช้วิธีการแยกแหล่งที่มาที่ล้ำสมัยโดยเฉพาะเพื่อสร้างคู่ของเสียงร้องและเสียงเครื่องดนตรีที่สอดคล้องกันจากคลังข้อมูลขนาดใหญ่ของการบันทึกเสียง จากนั้นนักพัฒนาแก้ไข ออดิโอLMซึ่งเป็นวิธีการที่ล้ำสมัยสำหรับการผลิตเสียงแบบไม่มีเงื่อนไข เพื่อให้ได้รับการฝึกฝนเกี่ยวกับคู่ที่แยกจากแหล่งที่มา (เสียงร้อง เครื่องดนตรี) สำหรับงานสร้าง "เสียงต่อเสียง" แบบมีเงื่อนไข
นักวิจัย AI ตรวจสอบคุณสมบัติต่างๆ ของอินพุตเสียงพูด ซึ่งวิธีที่ดีที่สุดจะช่วยเพิ่มประสิทธิภาพเชิงปริมาณของเสียงร้องแยกได้ 53% เมื่อเทียบกับคุณสมบัติ AudioLM เริ่มต้น เพื่อปรับปรุงการวางระบบโดยรวมจากข้อมูลการฝึกที่แยกจากแหล่งที่มา (instrumental) ไปจนถึงเสียงร้องแยกที่ผู้พัฒนาอาจคาดหวังจากผู้ใช้ ผู้ฟังแสดงความพึงพอใจอย่างมากต่อเครื่องดนตรีที่ผลิตโดย SingSong มากกว่าเครื่องดนตรีที่มาจากพื้นฐานการดึงข้อมูลที่แข็งแกร่งในการเปรียบเทียบแบบคู่กับอินพุตเสียงเดียวกัน
ในทางตรงกันข้าม ระบบใหม่นี้ใช้ แบบจำลองการเรียนรู้เชิงลึก ที่ได้รับการฝึกฝนในชุดข้อมูลเพลงขนาดใหญ่ สิ่งนี้ทำให้ระบบสามารถสร้างดนตรีประกอบที่สอดคล้องกับเสียงและจังหวะของนักร้อง
สำหรับการศึกษานี้ ผู้ฟังจะได้รับการผสมเสียงร้องและเครื่องดนตรี 10 วินาทีสองครั้ง โดยเสียง (นำมาจากการทดสอบ MUSDB18) จะเหมือนกัน ในขณะที่เครื่องดนตรีต่างกันและมาจากแหล่งต่างๆ (ความจริงภาคพื้นดิน Google รุ่นต่างๆหรือพื้นฐาน) คำถามขอให้ผู้ฟังเลือกว่าการผสมผสานระหว่างสองแบบใดที่พวกเขารู้สึกว่าการสนับสนุนที่เป็นเครื่องมือเหมาะกับเสียงร้องมากกว่า
ตัวอย่างใหม่ของ SingSong
โดยใช้ชุดของโครงข่ายประสาทเทียมระดับลึกและ รุ่นกำเนิดนักพัฒนาสามารถสร้างเสียงฮาร์โมนิคประกอบโดยไม่มีความล่าช้าสำหรับเซ็กเมนต์ที่ยาวขึ้น
เสียงระดับมืออาชีพของชุดข้อมูล MUSDB18 ถูกนำมาใช้ในตัวอย่างก่อนหน้านี้ เรายังรู้สึกทึ่งกับความสามารถของ SingSong ในการสนับสนุนและทำให้ทุกคนสามารถสร้างเพลงด้วยเสียงของพวกเขาได้ ที่นี่ เราตรวจสอบสิ่งนี้โดยใช้ตัวอย่างเสียงจากชุดข้อมูล Vocadito ซึ่งรวมถึงการบันทึกเสียงของนักร้องสมัครเล่นที่ทำขึ้นจากอุปกรณ์อิเล็กทรอนิกส์สำหรับผู้บริโภค
ระบบยังอยู่ในช่วงเริ่มต้นของการพัฒนา แม้ว่านักวิจัยกล่าวว่าจะต้องมีการปรับปรุงก่อนที่จะนำไปใช้ในเชิงพาณิชย์ได้ แต่พวกเขาเชื่อว่ามีศักยภาพในการปฏิวัติอุตสาหกรรมคาราโอเกะและช่วยให้นักร้องสมัครเล่นพบดนตรีประกอบที่เหมาะกับพวกเขา
อ่านบทความที่เกี่ยวข้องเพิ่มเติม:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต