XLM-V: วิธีการใหม่ของโมเดลภาษาหน้ากากหลายภาษาที่พยายามแก้ไขปัญหาคอขวดของคำศัพท์
ในบทสรุป
บทความนี้ทำให้เกิดปัญหาต่อไปนี้: โมเดลภาษา พารามิเตอร์เพิ่มขึ้น ลึกขึ้น แต่คำศัพท์ยังคงมีขนาดเท่าเดิม
นักวิจัยเริ่มฝึกโมเดลใหม่ด้วย 1 ล้านโทเค็นจากคำศัพท์ด้วยวิธีที่คาดไม่ถึง
นักวิจัยตั้งใจแน่วแน่ที่จะดูว่าพวกเขาสามารถปรับปรุงแบบใดได้บ้างด้วยโทเค็นที่เพิ่มขึ้นอย่างมาก
ประเด็นที่จขกท บทความ ชื่อ “XLM-V: การเอาชนะปัญหาคอขวดของคำศัพท์ในโมเดลภาษาหน้ากากหลายภาษา” คือเมื่อพารามิเตอร์ของโมเดลภาษาและความลึกเพิ่มขึ้น ขนาดคำศัพท์ของพวกมันจะไม่เปลี่ยนแปลง ตัวอย่างเช่น โมเดล mT5 มีพารามิเตอร์ 13B แต่มีคำศัพท์ 250K ที่รองรับมากกว่า 100 ภาษา ดังนั้น แต่ละภาษาจึงมีโทเค็นที่ไม่ซ้ำกันประมาณ 2,500 รายการ ซึ่งเห็นได้ชัดว่าเป็นจำนวนที่น้อยมาก
ผู้เขียนดำเนินการอย่างไร? พวกเขาเริ่มฝึกฝนโมเดลใหม่ด้วย 1 ล้านโทเค็นจากคำศัพท์ด้วยวิธีที่คาดไม่ถึง XLM-R มีอยู่ก่อนหน้านี้ อย่างไรก็ตาม ด้วยการอัปเกรดนี้ จะกลายเป็น XLM-V ผู้เขียนมุ่งมั่นที่จะดูว่าพวกเขาสามารถปรับปรุงแบบใดได้บ้างด้วยโทเค็นที่เพิ่มขึ้นอย่างมาก
บทความที่เกี่ยวข้อง: ค่าใช้จ่ายในการฝึกอบรมโมเดล AI คาดว่าจะเพิ่มขึ้นจาก 100 ล้านดอลลาร์เป็น 500 ล้านดอลลาร์ภายในปี 2030 |
แล้ว XLM-V ใหม่ที่ XLM-R ไม่มีล่ะ?
การปรับปรุง โมเดลหลายภาษา ใช้วิธี Language-Clustered Vocabularies เพื่อสร้างเวกเตอร์แทนศัพท์สำหรับแต่ละภาษาดังนี้: สำหรับแต่ละภาษาในชุดของภาษา พวกมันประกอบกันเป็นเวกเตอร์ไบนารี ซึ่งแต่ละองค์ประกอบคือคำเฉพาะในภาษา หนึ่งบ่งชี้ว่าคำนั้นรวมอยู่ในพจนานุกรมของภาษา (คุณสามารถดูภาพพร้อมคำอธิบายกราฟิกในไฟล์แนบ) อย่างไรก็ตาม โดยการสร้างเวกเตอร์โดยใช้ความน่าจะเป็นลอการิทึมเชิงลบของการเกิดขึ้นของคำศัพท์แต่ละคำ ผู้เขียนปรับปรุงวิธีการอ้างอิง .
- เวกเตอร์จะถูกจัดกลุ่มหลังจากนั้น นอกจากนี้ แบบจำลองประโยคยังได้รับการฝึกฝนในแต่ละกลุ่มเฉพาะเพื่อหยุดการถ่ายโอนคำศัพท์ระหว่างภาษาที่ไม่เกี่ยวข้องกับคำศัพท์
- ALP ประเมินความสามารถของพจนานุกรมเพื่อแสดงภาษาเฉพาะ
- การใช้อัลกอริทึมในการสร้าง เฮิสต์ พจนานุกรมเป็นขั้นตอนต่อไปนี้ ซึ่งเริ่มต้นด้วยพจนานุกรมเริ่มต้นขนาดใหญ่และค่อยๆ ย่อลงจนจำนวนโทเค็นต่ำกว่าเกณฑ์ที่กำหนดสำหรับขนาดพจนานุกรม
อ่านเพิ่มเติมเกี่ยวกับ AI:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต