สิงหาคม 23, 2023

นักวิจัยท้าทายแนวคิดเรื่อง 'ความสามารถที่เกิดขึ้นใหม่' ของแบบจำลองภาษาขนาดใหญ่

เผยแพร่: 23 สิงหาคม 2023 เวลา 5:54 น. อัปเดต: 23 สิงหาคม 2023 เวลา 5:54 น.

แก้ไขและตรวจสอบข้อเท็จจริง: 23 สิงหาคม 2023 เวลา 5:54 น

ในบทสรุป

การเปิดเผยของ AGI เป็นเรื่องที่น่ากังวลเนื่องจากปรากฏการณ์ของแบบจำลองภาษาขนาดใหญ่อย่างกะทันหัน แสดงให้เห็นถึงความสามารถ ที่รุ่นเล็กดูเหมือนจะไม่มี

ปรากฏการณ์นี้เรียกว่า "ความสามารถที่เพิ่มขึ้นของโมเดลภาษาขนาดใหญ่"

ผู้เขียนบทความ “ความสามารถฉุกเฉินของโมเดลภาษาขนาดใหญ่เป็นภาพลวงตาหรือไม่?” ให้เหตุผลว่าผลกระทบของความสามารถที่เกิดขึ้นไม่ใช่ภาพลวงตา แต่เป็นการเติบโตที่คาดการณ์ได้ในความสามารถในการปฏิบัติงาน

พวกเขาแสดงให้เห็นว่าปัญหา Big Bench อย่างน้อย 92% ไม่มีการพัฒนาอย่างกะทันหันสำหรับโมเดลขนาดใหญ่ และคุณภาพของโมเดลจะเติบโตอย่างราบรื่นและคาดการณ์ได้เมื่อขนาดของโมเดลเพิ่มขึ้น

ในการตรวจสอบความสามารถที่เป็นไปได้ของแบบจำลองภาษาขนาดใหญ่เมื่อเร็ว ๆ นี้ นักวิจัยได้ท้าทายแนวคิดเรื่อง "ความสามารถที่เกิดขึ้นใหม่" และให้ความกระจ่างเกี่ยวกับลักษณะการทำงานที่คาดเดาได้มากขึ้น บทความชื่อ “เผยความเป็นจริงของความสามารถฉุกเฉินของโมเดลภาษาขนาดใหญ่” ให้ความสนใจกับการตีความตัวชี้วัดที่ผิดซึ่งนำไปสู่ความเข้าใจผิดว่าแบบจำลองเหล่านี้ได้รับทักษะขั้นสูงโดยธรรมชาติ

นักวิจัยท้าทายแนวคิดเรื่อง 'ความสามารถที่เกิดขึ้นใหม่' ของแบบจำลองภาษาขนาดใหญ่ — เครดิต: Metaverse Post / Stable Diffusion

แนวคิดของ “ความสามารถที่เกิดขึ้น” ในบริบทของโมเดลภาษาขนาดใหญ่ เช่น GPT ได้กระตุ้นให้เกิดความกังวลเกี่ยวกับศักยภาพของโมเดลเหล่านี้ในการพัฒนาความสามารถที่คาดไม่ถึงคล้ายกับจิตสำนึกของมนุษย์ เอกสารนี้ยืนยันว่าสมมติฐานเหล่านี้มีพื้นฐานอยู่บนความเข้าใจที่มีข้อบกพร่องเกี่ยวกับพฤติกรรมและความสามารถที่แท้จริงของแบบจำลอง

ปรากฏการณ์ที่สังเกตได้ทั่วไป ซึ่งโมเดลขนาดใหญ่ดูเหมือนจะได้รับความสามารถที่เพิ่งค้นพบ เช่น การใช้เหตุผลเชิงนามธรรม การแก้ปัญหา และแม้แต่อารมณ์ขัน ได้รับการบัญญัติให้เป็น "ความสามารถที่เกิดขึ้นใหม่ของโมเดลภาษาขนาดใหญ่" ผู้เขียนบทความยืนยันว่าความสามารถเหล่านี้ไม่ได้เกิดขึ้นเองตามธรรมชาติ แต่เป็นผลมาจากการวัดผลการประเมินที่ทำให้เข้าใจผิด

เพื่ออธิบายประเด็นของพวกเขา นักวิจัยพิจารณางาน "เดาปริศนา" ซึ่งเป็นปัญหาที่ต้องใช้แบบจำลองภาษาเพื่อทำความเข้าใจปริศนาภาษาธรรมชาติและตอบสนองด้วยคำตอบที่ถูกต้องในภาษาธรรมชาติ ตามเนื้อผ้า คุณภาพของคำตอบจะได้รับการประเมินโดยใช้ระบบเมตริกแบบไบนารี โดยคำตอบจะได้รับคะแนน 1 หากตรงกับคำตอบที่ถูกต้องทุกประการ และหากอย่างอื่นให้คะแนน 0

จุดสำคัญของเรื่องนี้อยู่ที่ความไวของหน่วยเมตริกต่อความซับซ้อนของงานและจำนวนพารามิเตอร์โมเดล นักวิจัยเปิดเผยว่าเมตริกไบนารี่นี้นำไปสู่ การรับรู้ที่หลอกลวง ของ "ความสามารถที่เกิดขึ้น" โมเดลขนาดเล็กมักมีความแม่นยำเล็กน้อย (eps) ในหน่วยเมตริกนี้ ในขณะที่โมเดลขนาดใหญ่ โดยเฉพาะอย่างยิ่งที่มีจำนวนพารามิเตอร์สูง ดูเหมือนจะมีระดับความแม่นยำที่น่าทึ่ง (acc > 0.5)

บทความนี้ยืนยันว่าการเปลี่ยนแปลงความสามารถที่ชัดเจนนี้ไม่ได้บ่งชี้ถึงแบบจำลองที่ได้รับทักษะที่ซับซ้อนโดยธรรมชาติ แต่ความสามารถของแบบจำลองในการทำความเข้าใจและสร้างการตอบสนองที่เหมาะสมยิ่งขึ้นนั้นเกิดจากการประเมินผลลัพธ์ที่พิถีพิถันมากขึ้น นักวิจัยแสดงให้เห็นว่าโดยมุ่งเน้นไปที่การจับคู่ความน่าจะเป็นและการเชื่อมโยงกันทางความหมายมากกว่าการจับคู่สตริงที่ตรงกันทุกประการ ความก้าวหน้าของโมเดล ในการปฏิบัติงานเป็นไปตามวิถีที่สมเหตุสมผลมากขึ้น โดยไม่คำนึงถึงขนาด

ที่เกี่ยวข้อง: วิวัฒนาการของ Chatbots จากยุค T9 และ GPT-1 ไปยัง ChatGPT

การตรวจสอบวิวัฒนาการประสิทธิภาพของโมเดลด้วยการเปลี่ยนแปลงพารามิเตอร์

ในการตรวจสอบเชิงวิเคราะห์ นักวิจัยได้ค้นพบกลไกอันละเอียดอ่อนที่อยู่เบื้องหลังการรับรู้ "ความสามารถที่เกิดขึ้นใหม่" ของ โมเดลภาษาขนาดใหญ่. การศึกษานี้ตั้งคำถามถึงอิทธิพลของหน่วยเมตริก superdiscrete ในการประเมินประสิทธิภาพของโมเดล และอธิบายความเข้าใจเชิงคาดการณ์มากขึ้นเกี่ยวกับความสามารถของพวกเขาเมื่อพารามิเตอร์ของโมเดลขยายออกไป

แนวคิดที่มีอยู่ทั่วไปเกี่ยวกับ "ความสามารถที่เกิดขึ้นใหม่" ในโมเดลภาษาที่กว้างขวางได้ดึงดูดการอภิปรายและทำให้เกิดความกังวลเกี่ยวกับความก้าวหน้าที่อาจเกิดขึ้น การศึกษาครั้งนี้พยายามที่จะคลี่คลายกลไกที่เป็นรากฐานของปรากฏการณ์นี้ และถอดรหัสว่าแบบจำลองเหล่านี้แสดงความสามารถอย่างฉับพลันและไม่เคยเกิดขึ้นมาก่อนจริง ๆ หรือไม่ หรือความก้าวหน้าที่รับรู้เหล่านี้สามารถนำมาประกอบกับสาเหตุอื่นได้หรือไม่

หัวใจของการศึกษานี้อยู่ที่การประเมินอย่างพิถีพิถันของหน่วยเมตริกที่ใช้ในการวัดประสิทธิภาพของโมเดล นักวิจัยยืนยันว่าการใช้ตัวชี้วัด superdiscrete โดยเฉพาะอย่างยิ่งตัวชี้วัดไบนารีทั่วไปที่กำหนดการจับคู่สตริงที่แน่นอน อาจบิดเบือนการตีความข้อมูลขนาดใหญ่ ความสามารถของโมเดลภาษา. การศึกษาจะวิเคราะห์อย่างพิถีพิถันว่าการกระจายความน่าจะเป็นของคำตอบที่สร้างโดยแบบจำลองนั้นพัฒนาไปอย่างไรตามขนาดพารามิเตอร์ของแบบจำลอง

ตรงกันข้ามกับแนวคิดเรื่อง "ความสามารถที่เกิดขึ้นใหม่" การศึกษาเผยให้เห็นถึงแนวโน้มที่เป็นระบบมากขึ้น เมื่อขนาดของแบบจำลองเพิ่มขึ้น ความสามารถในการกำหนดความน่าจะเป็นที่สูงขึ้นให้กับคำตอบที่เหมาะสม และความน่าจะเป็นที่ลดลงสำหรับคำตอบที่ไม่ถูกต้องก็จะดีขึ้น สิ่งนี้สะท้อนให้เห็นถึงการปรับปรุงความสามารถของโมเดลอย่างต่อเนื่องในการแก้ปัญหาในขนาดต่างๆ ได้อย่างเชี่ยวชาญ โดยพื้นฐานแล้ว การวิจัยชี้ให้เห็นว่ากระบวนการเรียนรู้ของแบบจำลองเป็นไปตาม-defiวิถีการพัฒนามากกว่าการก้าวกระโดดอย่างกะทันหัน

ผู้เขียนแนะนำการเปลี่ยนกระบวนทัศน์โดยเสนอการแทนที่หน่วยเมตริกแบบแยกส่วนด้วยหน่วยเมตริกต่อเนื่อง การเปลี่ยนแปลงนี้นำเสนอภาพวิวัฒนาการด้านประสิทธิภาพที่ชัดเจนยิ่งขึ้น จากการวิเคราะห์ นักวิจัยยืนยันว่าประมาณ 92% ของ ปัญหาบิ๊กเบนช์ แสดงให้เห็นถึงการเติบโตด้านคุณภาพที่ราบรื่นและคาดการณ์ได้เมื่อขนาดของแบบจำลองขยายขึ้น การค้นพบนี้ท้าทายแนวคิดที่ว่าโมเดลขนาดใหญ่จะประสบกับความก้าวหน้าอย่างกะทันหัน และแทนที่จะเน้นย้ำถึงความก้าวหน้าที่ค่อยเป็นค่อยไปและเป็นไปตามที่คาดการณ์ไว้

การศึกษานี้ขยายข้อมูลเชิงลึกเพื่อตรวจสอบการกล่าวอ้างของตน มันแสดงให้เห็นว่าเอฟเฟกต์ "ความสามารถที่เกิดขึ้นใหม่" แบบเดียวกันสามารถจำลองแบบเทียมได้โดยใช้ตัวเข้ารหัสอัตโนมัติแบบธรรมดา โดยเสนอว่าการเลือกตัวชี้วัดมีอิทธิพลอย่างมากต่อผลลัพธ์ที่รับรู้ การเปิดเผยนี้ขยายขอบเขตความหมายของการศึกษานี้ให้กว้างขึ้น ซึ่งแสดงให้เห็นถึงความเกี่ยวข้องนอกเหนือจากแบบจำลองทางภาษาเพียงอย่างเดียว

นักวิจัยเน้นย้ำว่าผลลัพธ์ของพวกเขาไม่ได้ defiลบล้างศักยภาพของ "ความสามารถที่เกิดขึ้นใหม่" หรือจิตสำนึกในแบบจำลองภาษาขนาดใหญ่ อย่างไรก็ตามการค้นพบของพวกเขาสนับสนุนให้นักวิจัยเข้าถึงข้อกล่าวอ้างดังกล่าวด้วยมุมมองที่เหมาะสมยิ่ง แทนที่จะคาดเดาอย่างเร่งรีบและสร้างข้อสรุปที่รุนแรง การศึกษานี้เน้นย้ำถึงความสำคัญของการสอบสวนที่พิถีพิถันและการวิเคราะห์ที่ครอบคลุม

อ่านเพิ่มเติมเกี่ยวกับ AI:

คีย์เวิร์ด:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต

บทความอื่น ๆ

ดาเมียร์ ยาลอฟ