รายงานข่าว เทคโนโลยี
กุมภาพันธ์ 06, 2023

XLM-V: วิธีการใหม่ของโมเดลภาษาหน้ากากหลายภาษาที่พยายามแก้ไขปัญหาคอขวดของคำศัพท์

ในบทสรุป

บทความนี้ทำให้เกิดปัญหาต่อไปนี้: โมเดลภาษา พารามิเตอร์เพิ่มขึ้น ลึกขึ้น แต่คำศัพท์ยังคงมีขนาดเท่าเดิม

นักวิจัยเริ่มฝึกโมเดลใหม่ด้วย 1 ล้านโทเค็นจากคำศัพท์ด้วยวิธีที่คาดไม่ถึง

นักวิจัยตั้งใจแน่วแน่ที่จะดูว่าพวกเขาสามารถปรับปรุงแบบใดได้บ้างด้วยโทเค็นที่เพิ่มขึ้นอย่างมาก

ประเด็นที่จขกท บทความ ชื่อ “XLM-V: การเอาชนะปัญหาคอขวดของคำศัพท์ในโมเดลภาษาหน้ากากหลายภาษา” คือเมื่อพารามิเตอร์ของโมเดลภาษาและความลึกเพิ่มขึ้น ขนาดคำศัพท์ของพวกมันจะไม่เปลี่ยนแปลง ตัวอย่างเช่น โมเดล mT5 มีพารามิเตอร์ 13B แต่มีคำศัพท์ 250K ที่รองรับมากกว่า 100 ภาษา ดังนั้น แต่ละภาษาจึงมีโทเค็นที่ไม่ซ้ำกันประมาณ 2,500 รายการ ซึ่งเห็นได้ชัดว่าเป็นจำนวนที่น้อยมาก

XLM-V: วิธีการใหม่ของโมเดลภาษาหน้ากากหลายภาษาที่พยายามแก้ไขปัญหาคอขวดของคำศัพท์
@ Midjourney / ชัลฟ

ผู้เขียนดำเนินการอย่างไร? พวกเขาเริ่มฝึกฝนโมเดลใหม่ด้วย 1 ล้านโทเค็นจากคำศัพท์ด้วยวิธีที่คาดไม่ถึง XLM-R มีอยู่ก่อนหน้านี้ อย่างไรก็ตาม ด้วยการอัปเกรดนี้ จะกลายเป็น XLM-V ผู้เขียนมุ่งมั่นที่จะดูว่าพวกเขาสามารถปรับปรุงแบบใดได้บ้างด้วยโทเค็นที่เพิ่มขึ้นอย่างมาก

บทความที่เกี่ยวข้อง: ค่าใช้จ่ายในการฝึกอบรมโมเดล AI คาดว่าจะเพิ่มขึ้นจาก 100 ล้านดอลลาร์เป็น 500 ล้านดอลลาร์ภายในปี 2030

แล้ว XLM-V ใหม่ที่ XLM-R ไม่มีล่ะ?

แล้ว XLM-V ใหม่ที่ XLM-R ไม่มีล่ะ?

การปรับปรุง โมเดลหลายภาษา ใช้วิธี Language-Clustered Vocabularies เพื่อสร้างเวกเตอร์แทนศัพท์สำหรับแต่ละภาษาดังนี้: สำหรับแต่ละภาษาในชุดของภาษา พวกมันประกอบกันเป็นเวกเตอร์ไบนารี ซึ่งแต่ละองค์ประกอบคือคำเฉพาะในภาษา หนึ่งบ่งชี้ว่าคำนั้นรวมอยู่ในพจนานุกรมของภาษา (คุณสามารถดูภาพพร้อมคำอธิบายกราฟิกในไฟล์แนบ) อย่างไรก็ตาม โดยการสร้างเวกเตอร์โดยใช้ความน่าจะเป็นลอการิทึมเชิงลบของการเกิดขึ้นของคำศัพท์แต่ละคำ ผู้เขียนปรับปรุงวิธีการอ้างอิง .

  1. เวกเตอร์จะถูกจัดกลุ่มหลังจากนั้น นอกจากนี้ แบบจำลองประโยคยังได้รับการฝึกฝนในแต่ละกลุ่มเฉพาะเพื่อหยุดการถ่ายโอนคำศัพท์ระหว่างภาษาที่ไม่เกี่ยวข้องกับคำศัพท์
  2. ALP ประเมินความสามารถของพจนานุกรมเพื่อแสดงภาษาเฉพาะ
  3. การใช้อัลกอริทึมในการสร้าง เฮิสต์ พจนานุกรมเป็นขั้นตอนต่อไปนี้ ซึ่งเริ่มต้นด้วยพจนานุกรมเริ่มต้นขนาดใหญ่และค่อยๆ ย่อลงจนจำนวนโทเค็นต่ำกว่าเกณฑ์ที่กำหนดสำหรับขนาดพจนานุกรม

อ่านเพิ่มเติมเกี่ยวกับ AI:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

ความอยากอาหารของสถาบันเติบโตขึ้นสู่ Bitcoin ETFs ท่ามกลางความผันผวน

การเปิดเผยผ่านการยื่นเอกสาร 13F เผยให้เห็นนักลงทุนสถาบันที่มีชื่อเสียงกำลังเล่น Bitcoin ETFs ซึ่งตอกย้ำถึงการยอมรับที่เพิ่มขึ้นของ ...

รู้เพิ่มเติม

วันพิพากษามาถึง: ชะตากรรมของ CZ แขวนอยู่ในสมดุลขณะที่ศาลสหรัฐฯ พิจารณาคำร้องของ DOJ

ฉางเผิง จ้าว เตรียมเผชิญโทษจำคุกในศาลสหรัฐฯ ในเมืองซีแอตเทิลวันนี้

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
Injective ผนึกกำลัง AltLayer เพื่อนำการรักษาความปลอดภัยกลับมาสู่ inEVM
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
Injective ผนึกกำลัง AltLayer เพื่อนำการรักษาความปลอดภัยกลับมาสู่ inEVM
May 3, 2024
Masa ร่วมมือกับ Teller เพื่อแนะนำกลุ่มการให้ยืมของ MASA ซึ่งช่วยให้สามารถกู้ยืม USDC บนฐานได้
ตลาด รายงานข่าว เทคโนโลยี
Masa ร่วมมือกับ Teller เพื่อแนะนำกลุ่มการให้ยืมของ MASA ซึ่งช่วยให้สามารถกู้ยืม USDC บนฐานได้
May 3, 2024
Velodrome เปิดตัวเวอร์ชัน Superchain Beta ในอีกไม่กี่สัปดาห์ข้างหน้าและขยายข้ามบล็อคเชน OP Stack Layer 2
ตลาด รายงานข่าว เทคโนโลยี
Velodrome เปิดตัวเวอร์ชัน Superchain Beta ในอีกไม่กี่สัปดาห์ข้างหน้าและขยายข้ามบล็อคเชน OP Stack Layer 2
May 3, 2024
CARV ประกาศความร่วมมือกับ Aethir เพื่อกระจายอำนาจชั้นข้อมูลและแจกจ่ายรางวัล
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
CARV ประกาศความร่วมมือกับ Aethir เพื่อกระจายอำนาจชั้นข้อมูลและแจกจ่ายรางวัล
May 3, 2024
CRYPTOMERIA LABS PTE. บจก.