Google AI ประกาศ AudioLM ตัวสร้างข้อความเป็นเพลงตัวแรก
ในบทสรุป
AudioLM สามารถผลิตเพลงได้เพียงแค่ฟังเสียง
Mubert AI เพื่อสานต่อเสียงพูดของมนุษย์และดนตรีเปียโน
กับ GPT-3 และอื่นๆ แนวคิดเรื่อง Generative AI มีโอกาสที่ดีที่จะก้าวไปข้างหน้า นอกจากนี้เรายังได้ค้นพบแนวคิดของการวาดภาพและการทาสีภายนอก AI เติมเต็มรูปภาพอย่างชำนาญโดยยังคงรักษาธีมและสไตล์ไว้ แล้วดนตรีล่ะ?
และอีกครั้ง! เนื่องจากทั้งหมดนี้อิงตามโมเดลภาษา AI ที่รักษาความหมาย จึงเป็นเพียงเรื่องของเวลาก่อนที่เทคโนโลยีนี้จะถูกนำไปใช้กับดนตรี และตอนนี้เวลาก็มาถึง
จากการวิจัยล่าสุดของ Google เฟรมเวิร์กใหม่สำหรับการผลิตเสียงที่เรียกว่า AudioLM อาจได้รับการสอนให้สร้างเสียงพูดและเสียงเปียโนที่สมจริงได้ง่ายๆ โดยการฟังเสียง เนื่องจากความสม่ำเสมอในระยะยาวและความเที่ยงตรงที่ยอดเยี่ยม AudioLM จึงก้าวล้ำกว่าระบบก่อนหน้าและยกระดับการสร้างเสียงด้วยแอปพลิเคชันในการสังเคราะห์เสียงและเพลงโดยใช้คอมพิวเตอร์ช่วย
ออดิโอLM จาก Google AI สามารถขยายเสียงอะคูสติกในขณะที่รักษา "เจตนา" ณ ตอนนี้ มันได้รับการฝึกฝนให้พูดโดยมนุษย์และเสียงดนตรีเปียโนต่อไป โดยอิงตามตัวอย่างข้อมูลที่ป้อนเข้ามาอย่างจำกัด ตรวจสอบตัวอย่างด้านล่าง
หลักเกณฑ์ในการพูดนั้นตรงไปตรงมา: ผู้ฟังถูกขอให้ประเมินว่าเสียงที่ต่อเนื่องนั้นฟังดูเหมือนคำพูดของมนุษย์หรือไม่ จากเพลงพบว่า "ความต่อเนื่อง" ของส่วนที่ป้อนเข้านั้นมีคุณภาพเหนือกว่าเครื่องกำเนิดเพลงทั้งหมดในปัจจุบันตั้งแต่เริ่มต้น เช่น JukeBox. ด้วยคำแนะนำที่อินพุต AI จะเล่นเพลงต่อได้ดีขึ้นมาก
ผู้ประเมินโดยมนุษย์ฟังตัวอย่างเสียงเพื่อยืนยันผลลัพธ์ พวกเขาพิจารณาว่าพวกเขาได้ยินเสียงต่อเนื่องจากเสียงมนุษย์ที่ได้รับการบันทึกจริงหรือเสียงเทียมที่ผลิตโดย AudioLM ข้อมูลของพวกเขาระบุว่ามีอัตราความสำเร็จ 51.2% ด้วยเหตุนี้ จึงเป็นเรื่องยากสำหรับผู้ฟังทั่วไปในการแยกแยะระหว่างเสียงพูดที่ผลิตโดย AudioLM และเสียงพูดของมนุษย์จริงๆ
เทคโนโลยีแปลงข้อความเป็นเพลงเปลี่ยนแปลงธุรกิจเพลงหรือไม่?
ตัวสร้างข้อความเป็นเพลงขึ้นอยู่กับ มูเบิร์ต API เพิ่งประกาศโดย Mubert ซึ่งเป็นโมเดล AI อีกรุ่นหนึ่ง Mubert สร้างชุดเสียงที่แตกต่างกันสำหรับแต่ละคำขอที่คุณส่ง โอกาสที่จะเกิดซ้ำมีน้อยจริงๆ เพลงจะถูกสร้างขึ้นเมื่อมีการร้องขอ มันไม่ได้ถูกดึงออกมาจากฐานข้อมูลของเพลงที่เสร็จแล้ว แท้จริงแล้วเป็นอย่างไร กำเนิดเพลงนี้ เป็นคำถามที่พบบ่อย
เสียงจะถูกเลือกก่อนที่จะสร้าง ทั้งพรอมต์อินพุตและแท็ก Mubert API ถูกเข้ารหัสไปยังเวกเตอร์พื้นที่แฝงของโครงข่ายประสาทเทียมของหม้อแปลงไฟฟ้า จากนั้นจึงเลือกเวกเตอร์แท็กที่ใกล้เคียงที่สุดสำหรับแต่ละคำค้นหา และแท็กที่เกี่ยวข้องจะถูกส่งไปยัง API ของเราเพื่อสร้างเพลง ไม่มีการใช้โครงข่ายประสาทเทียมในการสร้างเสียงใดๆ (แยกลูปสำหรับเบส สายนำ ฯลฯ); เสียงทั้งหมดผลิตโดยนักดนตรีและนักออกแบบเสียง
ขั้นตอนต่อไปที่สำคัญของ Mubert คือการนำสิ่งของจากโลกปัจจุบัน เช่น ภาพถ่าย ภาพยนตร์ สถานการณ์ และงานนำเสนอ และสร้างเพลงของโลกรอบตัวคุณ
นี่คือสิ่งที่คุณจะได้รับจากการใส่ข้อความแจ้งเข้าไปในปากของดนตรี Mubert AI โดยประมาท:
นี่เป็นขั้นตอนเริ่มต้นในกระบวนการสร้างอัลกอริทึมการสร้างที่ซับซ้อนและแม่นยำยิ่งขึ้น แต่การดำเนินการนี้จะต้องใช้เวลาและเงิน
อย่างไรก็ตาม เทคโนโลยีแปลงข้อความเป็นเพลงมีอยู่แล้ว ดังนั้นคุณจึงสามารถสร้างอัลบั้มเป็นกลุ่มได้โดยเปลี่ยน "ข้อความแจ้ง" เป็น "เขียนสคริปต์ข้อความแบบสุ่ม" ดูเหมือนว่าศิลปินจะไม่จำเป็นอีกต่อไป
อ่านข่าวที่เกี่ยวข้องเพิ่มเติม:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต