Meta ได้พัฒนา Open-Source Speech AI ที่จดจำภาษาพูดได้มากกว่า 4,000 ภาษา
ในบทสรุป
โครงการ MMS ของบริษัทสามารถจดจำได้มากกว่า 4,000 ภาษา
เช่นเดียวกับโครงการ AI อื่น ๆ ส่วนใหญ่ที่ประกาศต่อสาธารณะ Meta กำลังแชร์โมเดลและโค้ดเพื่อช่วยรักษาความหลากหลายทางภาษา
จากงานนี้ พวกเขาหวังว่าจะได้มีส่วนร่วมเล็กๆ น้อยๆ ในการอนุรักษ์ความหลากหลายทางภาษาที่น่าทึ่งของโลก
Meta ได้สร้าง โมเดลภาษา AI ที่แปลกใหม่ ChatGPT. โอเพ่นซอร์ส โครงการ MMS ถูกสร้างขึ้นเพื่อรักษาความหลากหลายทางภาษาและสนับสนุนการวิจัยและสามารถจดจำภาษาพูดได้มากกว่า 4,000 ภาษาและสร้างข้อความ (คำพูด) ในกว่า 1,100 ภาษา บริษัทมี เผยแพร่สู่สาธารณะ โมเดลและรหัสของมันในวันนี้เพื่อบรรลุเป้าหมายต่อไป
“เรากำลังแบ่งปันการสร้างสรรค์และรหัสของเราสู่สาธารณะ เพื่อกระตุ้นให้ผู้อื่นในชุมชนการวิจัยต่อยอดผลงานของเรา” Meta เขียน “ด้วยความพยายามนี้ เราหวังที่จะรักษาความหลากหลายทางภาษาอันมหาศาลของโลกเอาไว้”
ความยากในการฝึกโปรแกรมรู้จำเสียงพูดและโมเดลแปลงข้อความเป็นคำพูดบนเสียงจำนวนมากโดยไม่มีป้ายกำกับการถอดเสียงเป็นเรื่องปกติ ฉลากมีความสำคัญต่อ เรียนรู้เครื่องซึ่งสามารถจำแนกและจำแนกข้อมูลได้อย่างถูกต้อง อย่างไรก็ตาม สำหรับภาษาที่จะหายไปในอีกไม่กี่ทศวรรษข้างหน้า "ข้อมูลนี้ไม่มีอยู่จริง" ตามที่ Meta อธิบาย
Meta ใช้การบันทึกเสียงข้อความทางศาสนาเพื่อรวบรวมข้อมูลในลักษณะที่แปลกใหม่ “เราใช้การแปลข้อความทางศาสนา เช่น คัมภีร์ไบเบิล ซึ่งได้รับการศึกษาอย่างกว้างขวางสำหรับการวิจัยการแปลภาษาตามข้อความในหลายภาษา เนื่องจากแปลเป็นภาษาต่างๆ มากมาย” บริษัทกล่าว เราแยกการบันทึกเสียงของคนที่อ่านข้อความเหล่านี้ในภาษาต่างๆ จากการแปลที่เปิดเผยต่อสาธารณะ” นักวิจัยของ Meta ได้เพิ่มภาษามากกว่า 4,000 ภาษาลงใน แบบ.
แนวทางนี้ฟังดูเหมือนเป็นสูตรสำเร็จสำหรับแบบจำลอง AI ที่มีอคติอย่างมากซึ่งสนับสนุนโลกทัศน์ของคริสเตียน อย่างไรก็ตาม ก่อนที่คุณจะเย้ยหยันแนวคิดนี้ ให้พิจารณาจากมุมมองของ Meta: นักวิจัยเชื่อว่าเป็นเช่นนี้เพราะพวกเขาใช้การจำแนกประเภทชั่วคราว CTC แบบเชื่อมต่อ (หรือแบบลำดับต่อลำดับหรือแบบลำดับ) ซึ่งมีข้อจำกัดมากกว่าในแง่ของเงื่อนไข ของกำลังการคำนวณเทียบกับ โมเดลภาษาขนาดใหญ่ (หรือที่เรียกว่าประเภทลำดับ) หรือแบบจำลองลำดับสำหรับการรู้จำเสียง Meta กล่าวว่าสิ่งนี้ไม่ได้ส่งผลให้ผู้ชายมีอคติในการบันทึกทางศาสนาที่บันทึกโดยผู้พูดชายส่วนใหญ่
Meta ใช้ wav2vec 2.0 ซึ่งเป็นโมเดล “การเรียนรู้การแสดงคำพูดด้วยตนเอง” เพื่อฝึก wav2vec 2.0 รูปแบบการจัดตำแหน่ง ที่ทำให้ข้อมูลใช้งานได้มากขึ้น รูปแบบการพูดที่ควบคุมด้วยตนเองที่ Meta ดูแลด้วยตนเองจากข้อมูลที่ไม่มีป้ายกำกับนำไปสู่ผลลัพธ์ที่ยอดเยี่ยม เมตาพบว่าโมเดลการพูดหลายภาษาจำนวนมากทำงานได้ดีเมื่อเทียบกับโมเดลที่มีอยู่และครอบคลุมหลายภาษามากกว่า 10 เท่า โดยเฉพาะอย่างยิ่งเมื่อเทียบกับ กระซิบ. Meta มีอัตราการผิดพลาดของคำเพียงครึ่งเดียว ในขณะที่ Massively Multilingual Speech ครอบคลุมมากกว่า 11 เท่าของหลายภาษา
Meta กล่าวว่าโมเดลการแปลงคำพูดเป็นข้อความใหม่นั้นไม่สมบูรณ์แบบ ตัวอย่างเช่น พวกเขาอาจแปลคำหรือวลีผิด ซึ่งอาจส่งผลให้เกิดคำหยาบคายและ/หรือคำพูดที่ไม่ถูกต้อง การพัฒนาเทคโนโลยี AI อย่างรับผิดชอบต้องสำเร็จผ่านความร่วมมือระหว่างชุมชน AI
เนื่องจาก Meta ได้เปิดตัว MMS สำหรับการวิจัยแบบโอเพ่นซอร์ส จึงหวังว่าจะสามารถย้อนกลับแนวโน้มของการใช้ภาษาที่หายไปได้ ในวิสัยทัศน์นี้ เทคโนโลยีอำนวยความสะดวก TTS และแม้แต่เทคโนโลยีความจริงเสมือนและความจริงเสริมอาจช่วยให้ทุกคนสามารถพูดและเรียนรู้ในภาษาของตนเองได้ โดยระบุว่า “เรามองเห็นโลกที่เทคโนโลยีมีผลตรงกันข้าม กระตุ้นให้ผู้คนรักษาภาษาของตนให้คงอยู่ เนื่องจากพวกเขาสามารถเข้าถึงข้อมูลและใช้เทคโนโลยีโดยพูดในภาษาที่พวกเขาต้องการ”
- เมื่อเร็วๆ นี้ Meta ได้ประกาศ ผลประกอบการสำหรับไตรมาสแรกของปี 2023 แม้จะมีความพยายามในการปรับโครงสร้างล่าสุด แต่บริษัทก็สร้างความประหลาดใจให้กับนักลงทุนด้วยยอดขายที่เพิ่มขึ้นอย่างคาดไม่ถึงในไตรมาสแรก หุ้นพุ่งขึ้น 12% ในวันพุธ
อ่านบทความที่เกี่ยวข้องเพิ่มเติม:
- คน 4,000 คนเข้ารับการบำบัดด้วยหุ่นยนต์ AI โดยไม่รู้ตัว
- ขัดขวางการหยุดชะงัก: ที่อยู่ Teleport Plaque ของ Stage Meta จะเข้าครอบงำ Metaverse ได้อย่างไร
- FTC ระงับความทะเยอทะยาน VR ของ Meta ด้วยการฟ้องร้อง
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต