รายงานข่าว เอสเอ็มดับบลิว เทคโนโลยี
May 30, 2023

SoundStorm: Google เปิดตัวเครื่องมือ AI ที่น่าสะพรึงกลัวที่สามารถจำลองเสียงแบบเรียลไทม์ได้

ในบทสรุป

Google ได้เปิดตัว SoundStorm ซึ่งเป็นโมเดลที่ล้ำสมัยสำหรับการสร้างเสียงที่มีประสิทธิภาพและไม่ถอยหลังอัตโนมัติ

ใช้ความสนใจแบบสองทิศทางและการถอดรหัสแบบขนานที่อิงตามความมั่นใจเพื่อสร้างเสียงคุณภาพสูงในขณะที่ลดเวลาในการสร้างลงอย่างมาก

นอกจากนี้ยังมีความสามารถในการสังเคราะห์บทสนทนาที่เป็นธรรมชาติ

Google ได้เปิดตัวความก้าวหน้าล่าสุดในเทคโนโลยีปัญญาประดิษฐ์ด้วย ซาวด์สตอร์มรุ่นล้ำสมัยสำหรับการสร้างเสียงที่มีประสิทธิภาพและไม่ถอยหลังอัตโนมัติ ด้วยความสามารถในการ สังเคราะห์บทสนทนา ด้วยเสียงที่แตกต่างกัน SoundStorm เปิดโอกาสใหม่ๆ สำหรับแอปพลิเคชัน เช่น การสร้างเนื้อหาเสียงจากข้อความที่เขียนและการสร้างพ็อดคาสท์ที่เหมือนจริง

SoundStorm: Google เปิดตัวเครื่องมือ AI ที่น่าสะพรึงกลัวที่สามารถจำลองเสียงแบบเรียลไทม์ได้
@Midjourney

ไม่เหมือนรุ่นก่อน ออดิโอLM, SoundStorm ใช้สถาปัตยกรรมแบบใหม่ที่สร้างเสียงใน 30 วินาที ซึ่งช่วยเพิ่มประสิทธิภาพ ด้วยการใช้ความสนใจแบบสองทิศทางและการถอดรหัสแบบขนานที่ยึดตามความมั่นใจ โมเดลนี้จึงสร้างเสียงคุณภาพสูงในขณะที่ลดเวลาในการสร้างลงอย่างมาก บนฮาร์ดแวร์ TPU-v4 ของ Google SoundStorm สามารถสร้างเสียง 30 วินาทีในเวลาเพียง 0.5 วินาที ซึ่งถือว่ามีการปรับปรุงความเร็วอย่างมาก

การฝึกอบรมของ SoundStorm ดำเนินการโดยใช้ชุดข้อมูลขนาดใหญ่ของการสนทนา 100,000 ชั่วโมง เพื่อให้มั่นใจว่ามีความเข้าใจที่ชัดเจนเกี่ยวกับรูปแบบภาษาพูด โมเดลนี้มีความสม่ำเสมอที่น่าประทับใจในสภาพเสียงและอะคูสติก ในขณะที่ยังคงรักษาคุณภาพเสียงที่ AudioLM ทำได้ ความก้าวหน้านี้ทำให้ SoundStorm เร็วกว่ารุ่นก่อนถึง XNUMX ลำดับ ซึ่งแสดงให้เห็นถึงศักยภาพในการสร้างเสียงที่ปรับขนาดได้

หนึ่งในความสามารถหลักของ SoundStorm คือความสามารถในการสังเคราะห์บทสนทนาที่เป็นธรรมชาติโดยใช้ประโยชน์จากขั้นตอนการสร้างแบบจำลองข้อความเป็นความหมายของ SPEAR-TTS ผู้ใช้จึงสามารถควบคุมเนื้อหาที่พูดและเสียงของผู้พูดได้ ในระหว่างการทดสอบ SoundStorm แสดงให้เห็นถึงความสามารถในการสังเคราะห์ส่วนบทสนทนา 30 วินาทีในเวลาเพียง 2 วินาทีบน TPU-v4 ตัวเดียว ซึ่งแสดงให้เห็นถึงประสิทธิภาพและความอเนกประสงค์ของมัน

พรอมต์ด้วยเสียง

บทสนทนาสังเคราะห์

เมื่อเปรียบเทียบกับพื้นฐานมาตรฐาน เสียงที่สร้างโดย SoundStorm มีคุณภาพเทียบเท่ากับ AudioLM และแสดงให้เห็นถึงความสม่ำเสมอที่เหนือกว่าและความสมบูรณ์ของเสียง โดยเฉพาะอย่างยิ่ง เมื่อได้รับพร้อมท์ให้แสดงตัวอย่างเสียงพูด โมเดลจะเก็บเสียงของผู้พูดไว้อย่างแม่นยำอย่างน่าทึ่ง ซึ่งช่วยเพิ่มความสามารถในการสร้างบทสนทนาที่เหมือนจริงได้อย่างมาก

แม้ว่าความสามารถของ SoundStorm จะโดดเด่น แต่การรับรู้และแก้ไขความเป็นไปได้ก็เป็นสิ่งสำคัญ ข้อกังวลด้านจริยธรรม. ข้อมูลการฝึกอบรมสำหรับอัลกอริทึมอาจทำให้เกิดอคติเกี่ยวกับสำเนียงและคุณลักษณะเสียง ความสามารถในการเลียนแบบเสียงอาจถูกนำไปใช้ในทางที่ผิด การแสดงบทบาท หรือเพื่อหลีกเลี่ยงการระบุตัวตนด้วยไบโอเมตริกซ์ Google เน้นความสำคัญของการป้องกันเพื่อป้องกันการละเมิดดังกล่าวและ มั่นใจในความสามารถในการตรวจจับ ของเสียงที่สร้างขึ้นผ่านตัวแยกประเภทเฉพาะ

หลักการด้าน AI อย่างมีจริยธรรมของ Google ขับเคลื่อนความพยายามอย่างต่อเนื่องในการจัดการกับอันตรายและข้อจำกัดที่อาจเกิดขึ้น องค์กรตระหนักถึงความจำเป็นในการศึกษาข้อมูลการฝึกอบรมอย่างละเอียดถี่ถ้วนและผลที่ตามมาสำหรับผลลัพธ์ของแบบจำลอง พวกเขายังวางแผนที่จะตรวจสอบแนวทางเพิ่มเติม เช่น การใส่ลายน้ำเสียง เพื่อตรวจหาเสียงสังเคราะห์เพื่อใช้เทคโนโลยีนี้อย่างมีจริยธรรม

  • SoundStorm เป็นความก้าวหน้าครั้งสำคัญในการผลิตเสียงที่ขับเคลื่อนด้วย AI โดยนำเสนอเสียงที่มีคุณภาพสูงและมีประสิทธิภาพจาก Neural Audio Codec Google คาดว่าความต้องการหน่วยความจำและการประมวลผลที่ต่ำกว่าของ SoundStorm จะทำให้การวิจัยเกี่ยวกับการสร้างเสียงเข้าถึงได้มากขึ้นสำหรับชุมชนที่กว้างขึ้น Google ยังคงทุ่มเทเพื่อรักษาแนวปฏิบัติด้าน AI อย่างมีความรับผิดชอบ และรับประกันการใช้งาน SoundStorm อย่างปลอดภัยและมีความรับผิดชอบ ตลอดจนความก้าวหน้าที่เทียบเคียงได้ในด้านนี้เมื่อเทคโนโลยีพัฒนาขึ้น
  • วัล-อีซึ่งเป็นโมเดลแปลงข้อความเป็นคำพูด (TTS) ล่าสุดของ Microsoft ถือเป็นความก้าวหน้าครั้งยิ่งใหญ่ในการยกระดับวิธีที่ระบบเหล่านี้สร้างเสียงพูด VALL-E คือ รุ่น ที.ที อิงจากทรานส์ฟอร์มเมอร์ที่สามารถสร้างเสียงพูดเป็นเสียงใดก็ได้หลังจากได้ยินตัวอย่างเสียงนั้นเพียงสามวินาที นี่เป็นความก้าวหน้าครั้งใหญ่เหนือรุ่นก่อนๆ ซึ่งต้องใช้ระยะเวลาการฝึกนานขึ้นอย่างมากเพื่อพัฒนาเสียงใหม่

อ่านเพิ่มเติมเกี่ยวกับ AI:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

วันพิพากษามาถึง: ชะตากรรมของ CZ แขวนอยู่ในสมดุลขณะที่ศาลสหรัฐฯ พิจารณาคำร้องของ DOJ

ฉางเผิง จ้าว เตรียมเผชิญโทษจำคุกในศาลสหรัฐฯ ในเมืองซีแอตเทิลวันนี้

รู้เพิ่มเติม

ผู้ก่อตั้ง Samourai Wallet ถูกกล่าวหาว่าอำนวยความสะดวกมูลค่า 2 พันล้านดอลลาร์ในข้อเสนอ Darknet

การจับกุมผู้ก่อตั้ง Samourai Wallet แสดงให้เห็นถึงความพ่ายแพ้ที่โดดเด่นของอุตสาหกรรม โดยเน้นย้ำถึงความต่อเนื่อง ...

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
Pantera Capital ลงทุนใน TON Blockchain แสดงความมั่นใจในศักยภาพของ Telegram ในการขยายการเข้าถึง Crypto
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
Pantera Capital ลงทุนใน TON Blockchain แสดงความมั่นใจในศักยภาพของ Telegram ในการขยายการเข้าถึง Crypto
May 2, 2024
Mitosis ระดมทุน 7 ล้านดอลลาร์จาก Amber Group และ Foresight Ventures เพื่อพัฒนาโปรโตคอลสภาพคล่องแบบโมดูลาร์
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
Mitosis ระดมทุน 7 ล้านดอลลาร์จาก Amber Group และ Foresight Ventures เพื่อพัฒนาโปรโตคอลสภาพคล่องแบบโมดูลาร์
May 2, 2024
Galxe ร่วมมือกับ Jambo เพื่อขยายการเข้าถึงทั่วโลกไปยัง Web3
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
Galxe ร่วมมือกับ Jambo เพื่อขยายการเข้าถึงทั่วโลกไปยัง Web3
May 2, 2024
Med-Gemini ของ Google พร้อมที่จะเป็นผู้นำ GPT-4 ด้วยประสิทธิภาพที่เหนือกว่าในด้านการดูแลสุขภาพ
AI Wiki ข่าว ซอฟต์แวร์ เทคโนโลยี
Med-Gemini ของ Google พร้อมที่จะเป็นผู้นำ GPT-4 ด้วยประสิทธิภาพที่เหนือกว่าในด้านการดูแลสุขภาพ
May 2, 2024
CRYPTOMERIA LABS PTE. บจก.