FLM-101B: โมเดลภาษาขนาด 101B ที่คุ้มต้นทุนสุดๆ แข่งขันกับโมเดล AI ชั้นนำ
ในบทสรุป
LLM ของจีน LM-101B สามารถฝึกอบรมได้ในงบประมาณ 100 ดอลลาร์ ซึ่งมีประสิทธิภาพเทียบเท่ากับรุ่นที่มีชื่อเสียงเช่น GPT-3 และ GLM-130B
นักวิจัยชาวจีนได้เปิดตัว LLM ใหม่ เอฟแอลเอ็ม-101บีซึ่งเป็น LLM ที่ใช้ตัวถอดรหัสเท่านั้นซึ่งมีพารามิเตอร์ที่น่าทึ่งถึง 101 พันล้านพารามิเตอร์ การพัฒนานี้เป็นทางเลือกที่คุ้มค่าสำหรับทั้งการวิจัยและการใช้งานจริง
ที่เกี่ยวข้อง ค่าใช้จ่ายในการฝึกอบรมโมเดล AI คาดว่าจะเพิ่มขึ้นจาก 100 ล้านดอลลาร์เป็น 500 ล้านดอลลาร์ภายในปี 2030 |
สิ่งที่ทำให้ FLM-101B โดดเด่นคือประสิทธิภาพที่ยอดเยี่ยมด้วยงบประมาณที่ค่อนข้างน้อย แม้ว่าจะเป็นที่ทราบกันดีว่าการฝึกอบรม LLM ตั้งแต่เริ่มต้นอาจต้องใช้เงินลงทุนมหาศาล แต่ผู้สร้าง FLM-101B ได้แสดงให้เห็นว่าเป็นไปได้ที่จะฝึกโมเดลที่มีพารามิเตอร์ 101 พันล้านพารามิเตอร์โดยใช้งบประมาณเพียง 100 ดอลลาร์
ผลการทดลองก็น่าประทับใจไม่แพ้กัน FLM-101B ได้แสดงให้เห็นระดับประสิทธิภาพที่เทียบเคียงได้กับที่มีอยู่แล้วและใช้ทรัพยากรมาก รุ่นที่ชอบ GPT-3 และ GLM-130B การเปรียบเทียบนี้เน้นย้ำถึงศักยภาพมหาศาลของแบบจำลองที่คุ้มต้นทุนนี้ โดยเฉพาะอย่างยิ่งในการวัดประสิทธิภาพ IQ ที่มีบริบทที่ซับซ้อนซึ่งไม่มีอยู่ในข้อมูลการฝึกอบรม
ในการเคลื่อนไหวที่ตอกย้ำความมุ่งมั่นของพวกเขาในการพัฒนาการวิจัยและพัฒนา AI ให้ก้าวหน้า ผู้สร้าง FLM-101B ได้สร้างโมเดลโอเพ่นซอร์สนี้ขึ้นมา ขณะนี้นักวิจัยและนักพัฒนาทั่วโลกสามารถเข้าถึงและใช้ประโยชน์จาก LLM ระดับ 101B นี้สำหรับแอปพลิเคชันต่างๆ ครอบคลุมทั้งภาษาจีนและภาษาอังกฤษ
รุ่น FLM-101B ใช้วิธีการฝึกอบรมที่เป็นเอกลักษณ์ โดยจะสะสมความรู้อย่างรวดเร็วจากแบบจำลองพารามิเตอร์ขนาดเล็กกว่า 16 พันล้านพารามิเตอร์ในระยะเริ่มต้นของการฝึกอบรม และค่อยๆ ขยายขนาดพารามิเตอร์ได้สูงสุดถึง 101 พันล้านพารามิเตอร์ แนวทางที่เพิ่มขึ้นนี้ช่วยลดต้นทุนการฝึกอบรมได้อย่างมาก ทำให้มีความเป็นไปได้ทางการเงินสำหรับโครงการต่างๆ ในวงกว้าง
คุณสมบัติที่โดดเด่นประการหนึ่งของ FLM-101B คือการรองรับการขยายขนาดหน้าต่างอย่างมีประสิทธิภาพในระหว่างการอนุมาน ซึ่งสามารถทำได้โดยการใช้การฝังตำแหน่งแบบหมุนของ xPos ซึ่งช่วยให้โมเดลสามารถจัดการกับบริบทที่กว้างขึ้น เพิ่มความสามารถในการปรับตัวและการใช้งาน
FLM-101B ได้รับการฝึกอบรมบนคลัสเตอร์ของเซิร์ฟเวอร์ DGX-A24 GPU 800 ตัวในเวลาไม่ถึง 26 วัน ความสำเร็จอันน่าประทับใจนี้ตอกย้ำถึงความสามารถในการปรับขนาดของโมเดลและการใช้ทรัพยากรอย่างมีประสิทธิภาพ โค้ดเบสการฝึกอบรมของโมเดลซึ่งดัดแปลงมาจาก Megatron-LM จะพร้อมใช้งานในรูปแบบโอเพ่นซอร์สเร็วๆ นี้ ซึ่งให้ข้อมูลเชิงลึกอันมีค่าสำหรับชุมชน AI
ผู้สร้าง FLM-101B รับทราบถึงข้อจำกัดที่อาจเกิดขึ้น รวมถึงการเปิดเผยของโมเดลต่อตัวอย่างที่ไม่ปลอดภัยในคลังข้อมูลการฝึกอบรม เนื่องจากชุดข้อมูลมีลักษณะเปิด ข้อแม้นี้ทำหน้าที่เป็นเครื่องเตือนใจถึงความสำคัญของการใช้งาน AI อย่างรับผิดชอบและ การควบคุมเนื้อหา.
แม้ว่า FLM-101B จะได้รับผลลัพธ์ที่น่าทึ่ง แต่ผู้สร้างก็รับทราบถึงจุดที่ต้องปรับปรุง กระบวนการอนุมานของโมเดลแม้จะทรงพลัง แต่ก็ยังไม่ได้รับการปรับให้เหมาะสมอย่างเต็มที่ ส่งผลให้มีการใช้ทรัพยากรสูงขึ้นและลดความเร็วลง อย่างไรก็ตาม แผนกำลังดำเนินการเพื่อแนะนำ Flash Attention ในการอนุมาน เพื่อแก้ไขข้อจำกัดนี้
อ่านเพิ่มเติมเกี่ยวกับ AI:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต