SoundStorm: Google เปิดตัวเครื่องมือ AI ที่น่าสะพรึงกลัวที่สามารถจำลองเสียงแบบเรียลไทม์ได้
ในบทสรุป
Google ได้เปิดตัว SoundStorm ซึ่งเป็นโมเดลที่ล้ำสมัยสำหรับการสร้างเสียงที่มีประสิทธิภาพและไม่ถอยหลังอัตโนมัติ
ใช้ความสนใจแบบสองทิศทางและการถอดรหัสแบบขนานที่อิงตามความมั่นใจเพื่อสร้างเสียงคุณภาพสูงในขณะที่ลดเวลาในการสร้างลงอย่างมาก
นอกจากนี้ยังมีความสามารถในการสังเคราะห์บทสนทนาที่เป็นธรรมชาติ
Google ได้เปิดตัวความก้าวหน้าล่าสุดในเทคโนโลยีปัญญาประดิษฐ์ด้วย ซาวด์สตอร์มรุ่นล้ำสมัยสำหรับการสร้างเสียงที่มีประสิทธิภาพและไม่ถอยหลังอัตโนมัติ ด้วยความสามารถในการ สังเคราะห์บทสนทนา ด้วยเสียงที่แตกต่างกัน SoundStorm เปิดโอกาสใหม่ๆ สำหรับแอปพลิเคชัน เช่น การสร้างเนื้อหาเสียงจากข้อความที่เขียนและการสร้างพ็อดคาสท์ที่เหมือนจริง
ไม่เหมือนรุ่นก่อน ออดิโอLM, SoundStorm ใช้สถาปัตยกรรมแบบใหม่ที่สร้างเสียงใน 30 วินาที ซึ่งช่วยเพิ่มประสิทธิภาพ ด้วยการใช้ความสนใจแบบสองทิศทางและการถอดรหัสแบบขนานที่ยึดตามความมั่นใจ โมเดลนี้จึงสร้างเสียงคุณภาพสูงในขณะที่ลดเวลาในการสร้างลงอย่างมาก บนฮาร์ดแวร์ TPU-v4 ของ Google SoundStorm สามารถสร้างเสียง 30 วินาทีในเวลาเพียง 0.5 วินาที ซึ่งถือว่ามีการปรับปรุงความเร็วอย่างมาก
การฝึกอบรมของ SoundStorm ดำเนินการโดยใช้ชุดข้อมูลขนาดใหญ่ของการสนทนา 100,000 ชั่วโมง เพื่อให้มั่นใจว่ามีความเข้าใจที่ชัดเจนเกี่ยวกับรูปแบบภาษาพูด โมเดลนี้มีความสม่ำเสมอที่น่าประทับใจในสภาพเสียงและอะคูสติก ในขณะที่ยังคงรักษาคุณภาพเสียงที่ AudioLM ทำได้ ความก้าวหน้านี้ทำให้ SoundStorm เร็วกว่ารุ่นก่อนถึง XNUMX ลำดับ ซึ่งแสดงให้เห็นถึงศักยภาพในการสร้างเสียงที่ปรับขนาดได้
หนึ่งในความสามารถหลักของ SoundStorm คือความสามารถในการสังเคราะห์บทสนทนาที่เป็นธรรมชาติโดยใช้ประโยชน์จากขั้นตอนการสร้างแบบจำลองข้อความเป็นความหมายของ SPEAR-TTS ผู้ใช้จึงสามารถควบคุมเนื้อหาที่พูดและเสียงของผู้พูดได้ ในระหว่างการทดสอบ SoundStorm แสดงให้เห็นถึงความสามารถในการสังเคราะห์ส่วนบทสนทนา 30 วินาทีในเวลาเพียง 2 วินาทีบน TPU-v4 ตัวเดียว ซึ่งแสดงให้เห็นถึงประสิทธิภาพและความอเนกประสงค์ของมัน
พรอมต์ด้วยเสียง
บทสนทนาสังเคราะห์
เมื่อเปรียบเทียบกับพื้นฐานมาตรฐาน เสียงที่สร้างโดย SoundStorm มีคุณภาพเทียบเท่ากับ AudioLM และแสดงให้เห็นถึงความสม่ำเสมอที่เหนือกว่าและความสมบูรณ์ของเสียง โดยเฉพาะอย่างยิ่ง เมื่อได้รับพร้อมท์ให้แสดงตัวอย่างเสียงพูด โมเดลจะเก็บเสียงของผู้พูดไว้อย่างแม่นยำอย่างน่าทึ่ง ซึ่งช่วยเพิ่มความสามารถในการสร้างบทสนทนาที่เหมือนจริงได้อย่างมาก
แม้ว่าความสามารถของ SoundStorm จะโดดเด่น แต่การรับรู้และแก้ไขความเป็นไปได้ก็เป็นสิ่งสำคัญ ข้อกังวลด้านจริยธรรม. ข้อมูลการฝึกอบรมสำหรับอัลกอริทึมอาจทำให้เกิดอคติเกี่ยวกับสำเนียงและคุณลักษณะเสียง ความสามารถในการเลียนแบบเสียงอาจถูกนำไปใช้ในทางที่ผิด การแสดงบทบาท หรือเพื่อหลีกเลี่ยงการระบุตัวตนด้วยไบโอเมตริกซ์ Google เน้นความสำคัญของการป้องกันเพื่อป้องกันการละเมิดดังกล่าวและ มั่นใจในความสามารถในการตรวจจับ ของเสียงที่สร้างขึ้นผ่านตัวแยกประเภทเฉพาะ
หลักการด้าน AI อย่างมีจริยธรรมของ Google ขับเคลื่อนความพยายามอย่างต่อเนื่องในการจัดการกับอันตรายและข้อจำกัดที่อาจเกิดขึ้น องค์กรตระหนักถึงความจำเป็นในการศึกษาข้อมูลการฝึกอบรมอย่างละเอียดถี่ถ้วนและผลที่ตามมาสำหรับผลลัพธ์ของแบบจำลอง พวกเขายังวางแผนที่จะตรวจสอบแนวทางเพิ่มเติม เช่น การใส่ลายน้ำเสียง เพื่อตรวจหาเสียงสังเคราะห์เพื่อใช้เทคโนโลยีนี้อย่างมีจริยธรรม
- SoundStorm เป็นความก้าวหน้าครั้งสำคัญในการผลิตเสียงที่ขับเคลื่อนด้วย AI โดยนำเสนอเสียงที่มีคุณภาพสูงและมีประสิทธิภาพจาก Neural Audio Codec Google คาดว่าความต้องการหน่วยความจำและการประมวลผลที่ต่ำกว่าของ SoundStorm จะทำให้การวิจัยเกี่ยวกับการสร้างเสียงเข้าถึงได้มากขึ้นสำหรับชุมชนที่กว้างขึ้น Google ยังคงทุ่มเทเพื่อรักษาแนวปฏิบัติด้าน AI อย่างมีความรับผิดชอบ และรับประกันการใช้งาน SoundStorm อย่างปลอดภัยและมีความรับผิดชอบ ตลอดจนความก้าวหน้าที่เทียบเคียงได้ในด้านนี้เมื่อเทคโนโลยีพัฒนาขึ้น
- วัล-อีซึ่งเป็นโมเดลแปลงข้อความเป็นคำพูด (TTS) ล่าสุดของ Microsoft ถือเป็นความก้าวหน้าครั้งยิ่งใหญ่ในการยกระดับวิธีที่ระบบเหล่านี้สร้างเสียงพูด VALL-E คือ รุ่น ที.ที อิงจากทรานส์ฟอร์มเมอร์ที่สามารถสร้างเสียงพูดเป็นเสียงใดก็ได้หลังจากได้ยินตัวอย่างเสียงนั้นเพียงสามวินาที นี่เป็นความก้าวหน้าครั้งใหญ่เหนือรุ่นก่อนๆ ซึ่งต้องใช้ระยะเวลาการฝึกนานขึ้นอย่างมากเพื่อพัฒนาเสียงใหม่
อ่านเพิ่มเติมเกี่ยวกับ AI:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต