May 15, 2023

โปรแกรม LLM: เส้นทางใหม่ในการปรับแต่งโมเดลประสาทในสถานการณ์ที่ซับซ้อน

by ดาเมียร์ ยาลอฟ

เผยแพร่: 15 พฤษภาคม 2023 เวลา 3:42 น. อัปเดต: 15 พฤษภาคม 2023 เวลา 3:42 น.

by คาโรลินา กัซซ์

แก้ไขและตรวจสอบข้อเท็จจริง: 15 พฤษภาคม 2023 เวลา 3:42 น

ในบทสรุป

ผู้เขียนเสนอทางเลือกอื่นที่เรียกว่า LLM Programs ซึ่งถือได้ว่าเป็นการพัฒนาการเรียนรู้ในบริบท

กุญแจสำคัญในการแก้ปัญหาผ่านโปรแกรม LLM คือความสามารถในการแยกย่อยวิธีแก้ปัญหาออกเป็นลำดับขั้นตอนที่ง่ายขึ้น

การปรับแต่ง LLM มีสองส่วนหลัก: การปรับแต่งอย่างละเอียด (หรือการฝึกอบรมเพิ่มเติม) โมเดลพื้นฐานที่ผ่านการฝึกอบรมล่วงหน้าและการเรียนรู้ในบริบท การปรับแต่งอย่างละเอียดต้องใช้ทรัพยากรการประมวลผล การรวบรวมข้อมูล และโครงสร้างพื้นฐานที่สำคัญเพื่อดำเนินการนี้ จากนั้นจึงโฮสต์โมเดลที่ปรับแต่งอย่างละเอียด ในขณะเดียวกัน การเรียนรู้ในบริบทเกี่ยวข้องกับการรวบรวมคำแนะนำที่ถูกต้องพร้อมตัวอย่างการแก้ปัญหา เช่น Chain-of-Thought (CoT) อย่างไรก็ตาม มีปัญหาบางอย่าง เช่น ขนาดข้อความจำกัดที่สามารถส่งไปยังโมเดลได้ และความจริงที่ว่าในพรอมต์แบบหลายพาสที่ซับซ้อน ขั้นตอนอาจรบกวนซึ่งกันและกัน และโมเดลอาจถูกรบกวนจากบางสิ่ง ที่ไม่ควรวอกแวกในขณะนี้ ผู้เขียนขอเสนอทางเลือกอีกทางหนึ่งที่เรียกว่า โปรแกรม LLMซึ่งถือได้ว่าเป็นการพัฒนาการเรียนรู้ในบริบท

โปรแกรม LLM: เส้นทางใหม่ในการปรับแต่งโมเดลประสาทในสถานการณ์ที่ซับซ้อน

ที่แนะนำ: คู่มือวิศวกรรมพร้อมท์ขั้นสูงปี 2023

LLM ถูกสร้างขึ้นในโปรแกรม (ในรูปแบบปกติ ภาษาโปรแกรมตัวอย่างเช่น ใน Python) รหัสภายนอกนี้มีหน้าที่จัดเก็บสถานะและบำรุงรักษาแบบจำลองทีละขั้นตอน มีข้อได้เปรียบที่สำคัญบางประการ: ภาษาโปรแกรมได้รับการปรับให้เข้ากับสิ่งนี้ ขนาดของบริบทที่มีอยู่จะขยายใหญ่ขึ้น และขั้นตอนจะไม่รบกวนซึ่งกันและกัน กุญแจสำคัญในการแก้ปัญหาผ่านโปรแกรม LLM คือความสามารถในการแยกย่อยวิธีแก้ปัญหาออกเป็นลำดับขั้นตอนที่ง่ายขึ้น วิธีการนี้แตกต่างจากงานก่อนหน้านี้ตรงที่แบบจำลองใช้เครื่องมือภายนอก เช่น เครื่องคิดเลขหรือ ล่ามรหัส เพื่อรักษาสถานะ แนวทางนี้ดีเพราะสามารถอธิบายงานที่ซับซ้อนและกระจายตัวด้วยวิธีนี้ ทำให้ทดสอบ ดีบัก และประเมินคุณภาพได้ง่ายขึ้น

นอกจากนี้ ไม่มีการรบกวนระหว่างขั้นตอน ทำให้ทำงานกับ LLM ได้ง่ายขึ้น ระบบถาม-ตอบก็ไม่ใช่เรื่องใหม่เช่นกัน พวกมันมีอยู่ก่อน LLM มานาน ภารกิจตอบคำถามตอนนี้เป็นอย่างไรบ้าง?

ไซต์มีการอัปเดตบ่อยครั้ง ดังนั้น ก โมเดลแช่แข็ง ไม่ใช่ตัวเลือก มันจะล้าสมัยอย่างรวดเร็วและจะไม่สามารถตอบคำถามเกี่ยวกับผลิตภัณฑ์ใหม่ได้ การฝึกอบรมโมเดลซ้ำอย่างต่อเนื่องสำหรับการอัปเดตแต่ละครั้งไม่ใช่ตัวเลือกที่เป็นจริง: มีราคาแพงและใช้เวลานาน โดยปกติแล้วหน้าของเว็บไซต์จะถูกจัดทำดัชนี ใส่ฐานข้อมูลบางประเภท และมักจะเป็นเวกเตอร์ ตามคำขอของผู้ใช้ เอกสารที่เกี่ยวข้องจะถูกดึงขึ้นมาและส่งเป็นบริบทไปยัง LLM

ในกระบวนทัศน์ดังกล่าว ปัญหาได้รับการแก้ไขตามธรรมชาติผ่านโปรแกรม LLM เป็นโบนัสมัน เป็นไปได้ เพื่อใช้ลอจิกแบบหลายพาสที่ซับซ้อนมากขึ้นซึ่งไม่เข้ากับบริบททั้งหมด

ทดสอบเมื่อวันที่ ชุดข้อมูล StrategyQA ที่มีปัญหาการจำแนกเลขฐานสอง ซึ่งวิธีแก้ปัญหานั้นเกี่ยวข้องกับการให้เหตุผลแบบหลายทาง เช่นเดียวกับ "แสงแดดส่องเข้าไปในส่วนที่ลึกที่สุดของทะเลดำหรือไม่" ในการตอบคำถาม คุณต้องค้นหาความลึกสูงสุด (2 กม.) และความลึกของแสงที่ส่องผ่านน้ำ (1 กม.) แล้วจึงสรุปผล ลองดูตัวอย่างคำถามอื่น: "Aristotle ใช้แล็ปท็อปหรือไม่" คำถามนี้ไม่ตรงไปตรงมาและไม่เป็นไปตามลำดับขั้นตอนการให้เหตุผลอย่างชัดเจน เช่น “อริสโตเติลยังมีชีวิตอยู่หรือไม่เมื่อแล็ปท็อปถูกประดิษฐ์ขึ้น” ทำ. ชุดข้อมูลมุ่งเน้นไปที่คำถามที่ลำดับดังกล่าวเป็นนัย มีคำถามเพียง 2,780 ข้อในชุดข้อมูล ซึ่งมีเพียง 918 ย่อหน้าพร้อมหลักฐานที่สนับสนุนขั้นตอนทั้งหมดของการใช้เหตุผล ในงานปัจจุบัน จะจำกัดเฉพาะส่วนย่อยนี้ มิฉะนั้นเราจะต้องพึ่งพา LLM ในการเรียนรู้ข้อเท็จจริงบางอย่างระหว่างการฝึกอบรมล่วงหน้า

ตามค่าเริ่มต้น OPT-175B LLM ทำตามคำแนะนำได้ไม่ดีนัก ไม่จำเป็นต้องปรับแต่งคำแนะนำหรือข้อมูลการสนทนา ในการแก้ปัญหาการตอบคำถามที่มีหลักฐานสนับสนุน จะแบ่งออกเป็นขั้นตอนการกรองข้อมูลและขั้นตอนการค้นหาต้นไม้

ในขั้นตอนการกรอง เมื่อมีคำถาม นักพัฒนาจะอ่านย่อหน้าทั้งหมดและเลือกสิ่งที่เกี่ยวข้องมากที่สุด ตัวอย่างเช่น ด้วยพรอมต์ไม่กี่ช็อต ขอให้ LLM ตอบ (ใช่/ไม่ใช่) ว่าย่อหน้าที่กำหนดเกี่ยวข้องกับคำถามที่ถามหรือไม่ ทดสอบกับชุดย่อย 300 ของ StrategyQA โดยที่คำถามแต่ละข้อตรงกับย่อหน้าที่เกี่ยวข้องหรือไม่ 50/50 OPT-175B และ text-davinci-002 ไม่มี คุณภาพสูงกว่ามาก มากกว่าพื้นฐานแบบสุ่ม: มากถึง 56% ยิ่งก้าวหน้า 11B Tk-คำแนะนำ ดีขึ้นไม่มากที่ 61.6%

เนื่องจากวิธีการนี้มีคุณภาพต่ำ จึงได้มีการรวบรวมทางเลือกอื่นโดยพิจารณาค่าเฉลี่ยความน่าจะเป็นของการบันทึกเชิงลบ (NLL) ของคำถามร่วมกับย่อหน้าก่อนหน้าของข้อความ จากนั้นจึงจัดอันดับผลลัพธ์ ประเมินจากชุดข้อมูลที่คำถามแต่ละข้อมี 100 ย่อหน้า และมีเพียง 1 ย่อหน้าที่เกี่ยวข้อง (ดังนั้นการคาดเดาแบบสุ่มจึงให้ 1%) เรามีความแม่นยำอันดับ 79 ที่ 5% และอันดับ 93 ที่ XNUMX% สำหรับการคำนวณนี้ โดยปกติแล้ว คุณต้องเข้าถึงตัวโมเดลเอง ซึ่งใน API ไม่ได้ทำทุกครั้ง

ถัดมาคือขั้นตอนของการสร้างห่วงโซ่ผลผลิต สิ่งนี้ทำผ่านการค้นหาผ่านต้นไม้ที่คำถามเป็นราก และในแต่ละระดับ มีหลายย่อหน้าพร้อมหลักฐานที่เป็นไปได้ที่ใช้เป็นบริบทเพื่อสร้างขั้นตอนต่อไป แต่ละเส้นทางผ่านต้นไม้เป็นห่วงโซ่การส่งออกที่มีศักยภาพ มันไม่สมจริงที่จะสรุปเกี่ยวกับห่วงโซ่ที่เป็นไปได้ทั้งหมด ดังนั้นห่วงโซ่ที่มีอยู่ทั้งหมดจะได้รับการจัดอันดับและขยายห่วงโซ่ที่มีอันดับสูงสุด นี่คือรูปแบบของการค้นหาลำแสง กระบวนการจะหยุดลงเมื่อมีการตอบกลับหรือผ่านจำนวนขั้นตอนสูงสุดที่อนุญาต

รายละเอียดที่สำคัญที่สุดคือกลยุทธ์การจัดอันดับสองแบบที่ทดสอบสำหรับขั้นตอนการค้นหาแบบต้นไม้ กลยุทธ์แรกขึ้นอยู่กับ NLL เฉลี่ยของห่วงโซ่ทั้งหมด ในขณะที่กลยุทธ์ที่สองดูที่ความแตกต่างเฉลี่ยใน NLL ที่มีและไม่มีย่อหน้า (P) โดยมีและไม่มีคำถาม (Q) สำหรับคำถาม 918 ข้อที่มีอยู่จาก StrategyQA วิธีการนี้ช่วยปรับปรุงคุณภาพคำตอบอย่างมีนัยสำคัญเมื่อเทียบกับพื้นฐานด้วย CoT (60%) ตัวเลือกการค้นหาทั้งสองให้ประมาณ 66% (กลยุทธ์ที่มีเดลต้าสูงกว่าเล็กน้อย) หากมีการส่งข้อมูลที่เป็นทอง คุณภาพจะอยู่ที่ประมาณ 81% ซึ่งเป็นขีดจำกัดสูงสุดสำหรับ OPT Darklang ดูเหมือนว่าจะไปที่ไหนสักแห่ง แต่ด้วยวิธีที่แตกต่างออกไปเล็กน้อย

บทความนี้อ้างอิงจาก Telegram เสา.

อ่านเพิ่มเติมเกี่ยวกับ AI:

คีย์เวิร์ด:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต

บทความอื่น ๆ

ดาเมียร์ ยาลอฟ