รายงานข่าว เทคโนโลยี
May 15, 2023

โปรแกรม LLM: เส้นทางใหม่ในการปรับแต่งโมเดลประสาทในสถานการณ์ที่ซับซ้อน

ในบทสรุป

ผู้เขียนเสนอทางเลือกอื่นที่เรียกว่า LLM Programs ซึ่งถือได้ว่าเป็นการพัฒนาการเรียนรู้ในบริบท

กุญแจสำคัญในการแก้ปัญหาผ่านโปรแกรม LLM คือความสามารถในการแยกย่อยวิธีแก้ปัญหาออกเป็นลำดับขั้นตอนที่ง่ายขึ้น

การปรับแต่ง LLM มีสองส่วนหลัก: การปรับแต่งอย่างละเอียด (หรือการฝึกอบรมเพิ่มเติม) โมเดลพื้นฐานที่ผ่านการฝึกอบรมล่วงหน้าและการเรียนรู้ในบริบท การปรับแต่งอย่างละเอียดต้องใช้ทรัพยากรการประมวลผล การรวบรวมข้อมูล และโครงสร้างพื้นฐานที่สำคัญเพื่อดำเนินการนี้ จากนั้นจึงโฮสต์โมเดลที่ปรับแต่งอย่างละเอียด ในขณะเดียวกัน การเรียนรู้ในบริบทเกี่ยวข้องกับการรวบรวมคำแนะนำที่ถูกต้องพร้อมตัวอย่างการแก้ปัญหา เช่น Chain-of-Thought (CoT) อย่างไรก็ตาม มีปัญหาบางอย่าง เช่น ขนาดข้อความจำกัดที่สามารถส่งไปยังโมเดลได้ และความจริงที่ว่าในพรอมต์แบบหลายพาสที่ซับซ้อน ขั้นตอนอาจรบกวนซึ่งกันและกัน และโมเดลอาจถูกรบกวนจากบางสิ่ง ที่ไม่ควรวอกแวกในขณะนี้ ผู้เขียนขอเสนอทางเลือกอีกทางหนึ่งที่เรียกว่า โปรแกรม LLMซึ่งถือได้ว่าเป็นการพัฒนาการเรียนรู้ในบริบท

โปรแกรม LLM: เส้นทางใหม่ในการปรับแต่งโมเดลประสาทในสถานการณ์ที่ซับซ้อน
ที่แนะนำ: คู่มือวิศวกรรมพร้อมท์ขั้นสูงปี 2023

LLM ถูกสร้างขึ้นในโปรแกรม (ในรูปแบบปกติ ภาษาโปรแกรมตัวอย่างเช่น ใน Python) รหัสภายนอกนี้มีหน้าที่จัดเก็บสถานะและบำรุงรักษาแบบจำลองทีละขั้นตอน มีข้อได้เปรียบที่สำคัญบางประการ: ภาษาโปรแกรมได้รับการปรับให้เข้ากับสิ่งนี้ ขนาดของบริบทที่มีอยู่จะขยายใหญ่ขึ้น และขั้นตอนจะไม่รบกวนซึ่งกันและกัน กุญแจสำคัญในการแก้ปัญหาผ่านโปรแกรม LLM คือความสามารถในการแยกย่อยวิธีแก้ปัญหาออกเป็นลำดับขั้นตอนที่ง่ายขึ้น วิธีการนี้แตกต่างจากงานก่อนหน้านี้ตรงที่แบบจำลองใช้เครื่องมือภายนอก เช่น เครื่องคิดเลขหรือ ล่ามรหัส เพื่อรักษาสถานะ แนวทางนี้ดีเพราะสามารถอธิบายงานที่ซับซ้อนและกระจายตัวด้วยวิธีนี้ ทำให้ทดสอบ ดีบัก และประเมินคุณภาพได้ง่ายขึ้น

นอกจากนี้ ไม่มีการรบกวนระหว่างขั้นตอน ทำให้ทำงานกับ LLM ได้ง่ายขึ้น ระบบถาม-ตอบก็ไม่ใช่เรื่องใหม่เช่นกัน พวกมันมีอยู่ก่อน LLM มานาน ภารกิจตอบคำถามตอนนี้เป็นอย่างไรบ้าง?

ไซต์มีการอัปเดตบ่อยครั้ง ดังนั้น ก โมเดลแช่แข็ง ไม่ใช่ตัวเลือก มันจะล้าสมัยอย่างรวดเร็วและจะไม่สามารถตอบคำถามเกี่ยวกับผลิตภัณฑ์ใหม่ได้ การฝึกอบรมโมเดลซ้ำอย่างต่อเนื่องสำหรับการอัปเดตแต่ละครั้งไม่ใช่ตัวเลือกที่เป็นจริง: มีราคาแพงและใช้เวลานาน โดยปกติแล้วหน้าของเว็บไซต์จะถูกจัดทำดัชนี ใส่ฐานข้อมูลบางประเภท และมักจะเป็นเวกเตอร์ ตามคำขอของผู้ใช้ เอกสารที่เกี่ยวข้องจะถูกดึงขึ้นมาและส่งเป็นบริบทไปยัง LLM

ในกระบวนทัศน์ดังกล่าว ปัญหาได้รับการแก้ไขตามธรรมชาติผ่านโปรแกรม LLM เป็นโบนัสมัน เป็นไปได้ เพื่อใช้ลอจิกแบบหลายพาสที่ซับซ้อนมากขึ้นซึ่งไม่เข้ากับบริบททั้งหมด

ทดสอบเมื่อวันที่ ชุดข้อมูล StrategyQA ที่มีปัญหาการจำแนกเลขฐานสอง ซึ่งวิธีแก้ปัญหานั้นเกี่ยวข้องกับการให้เหตุผลแบบหลายทาง เช่นเดียวกับ "แสงแดดส่องเข้าไปในส่วนที่ลึกที่สุดของทะเลดำหรือไม่" ในการตอบคำถาม คุณต้องค้นหาความลึกสูงสุด (2 กม.) และความลึกของแสงที่ส่องผ่านน้ำ (1 กม.) แล้วจึงสรุปผล ลองดูตัวอย่างคำถามอื่น: "Aristotle ใช้แล็ปท็อปหรือไม่" คำถามนี้ไม่ตรงไปตรงมาและไม่เป็นไปตามลำดับขั้นตอนการให้เหตุผลอย่างชัดเจน เช่น “อริสโตเติลยังมีชีวิตอยู่หรือไม่เมื่อแล็ปท็อปถูกประดิษฐ์ขึ้น” ทำ. ชุดข้อมูลมุ่งเน้นไปที่คำถามที่ลำดับดังกล่าวเป็นนัย มีคำถามเพียง 2,780 ข้อในชุดข้อมูล ซึ่งมีเพียง 918 ย่อหน้าพร้อมหลักฐานที่สนับสนุนขั้นตอนทั้งหมดของการใช้เหตุผล ในงานปัจจุบัน จะจำกัดเฉพาะส่วนย่อยนี้ มิฉะนั้นเราจะต้องพึ่งพา LLM ในการเรียนรู้ข้อเท็จจริงบางอย่างระหว่างการฝึกอบรมล่วงหน้า

ตามค่าเริ่มต้น OPT-175B LLM ทำตามคำแนะนำได้ไม่ดีนัก ไม่จำเป็นต้องปรับแต่งคำแนะนำหรือข้อมูลการสนทนา ในการแก้ปัญหาการตอบคำถามที่มีหลักฐานสนับสนุน จะแบ่งออกเป็นขั้นตอนการกรองข้อมูลและขั้นตอนการค้นหาต้นไม้

ในขั้นตอนการกรอง เมื่อมีคำถาม นักพัฒนาจะอ่านย่อหน้าทั้งหมดและเลือกสิ่งที่เกี่ยวข้องมากที่สุด ตัวอย่างเช่น ด้วยพรอมต์ไม่กี่ช็อต ขอให้ LLM ตอบ (ใช่/ไม่ใช่) ว่าย่อหน้าที่กำหนดเกี่ยวข้องกับคำถามที่ถามหรือไม่ ทดสอบกับชุดย่อย 300 ของ StrategyQA โดยที่คำถามแต่ละข้อตรงกับย่อหน้าที่เกี่ยวข้องหรือไม่ 50/50 OPT-175B และ text-davinci-002 ไม่มี คุณภาพสูงกว่ามาก มากกว่าพื้นฐานแบบสุ่ม: มากถึง 56% ยิ่งก้าวหน้า 11B Tk-คำแนะนำ ดีขึ้นไม่มากที่ 61.6%

เนื่องจากวิธีการนี้มีคุณภาพต่ำ จึงได้มีการรวบรวมทางเลือกอื่นโดยพิจารณาค่าเฉลี่ยความน่าจะเป็นของการบันทึกเชิงลบ (NLL) ของคำถามร่วมกับย่อหน้าก่อนหน้าของข้อความ จากนั้นจึงจัดอันดับผลลัพธ์ ประเมินจากชุดข้อมูลที่คำถามแต่ละข้อมี 100 ย่อหน้า และมีเพียง 1 ย่อหน้าที่เกี่ยวข้อง (ดังนั้นการคาดเดาแบบสุ่มจึงให้ 1%) เรามีความแม่นยำอันดับ 79 ที่ 5% และอันดับ 93 ที่ XNUMX% สำหรับการคำนวณนี้ โดยปกติแล้ว คุณต้องเข้าถึงตัวโมเดลเอง ซึ่งใน API ไม่ได้ทำทุกครั้ง

ถัดมาคือขั้นตอนของการสร้างห่วงโซ่ผลผลิต สิ่งนี้ทำผ่านการค้นหาผ่านต้นไม้ที่คำถามเป็นราก และในแต่ละระดับ มีหลายย่อหน้าพร้อมหลักฐานที่เป็นไปได้ที่ใช้เป็นบริบทเพื่อสร้างขั้นตอนต่อไป แต่ละเส้นทางผ่านต้นไม้เป็นห่วงโซ่การส่งออกที่มีศักยภาพ มันไม่สมจริงที่จะสรุปเกี่ยวกับห่วงโซ่ที่เป็นไปได้ทั้งหมด ดังนั้นห่วงโซ่ที่มีอยู่ทั้งหมดจะได้รับการจัดอันดับและขยายห่วงโซ่ที่มีอันดับสูงสุด นี่คือรูปแบบของการค้นหาลำแสง กระบวนการจะหยุดลงเมื่อมีการตอบกลับหรือผ่านจำนวนขั้นตอนสูงสุดที่อนุญาต

รายละเอียดที่สำคัญที่สุดคือกลยุทธ์การจัดอันดับสองแบบที่ทดสอบสำหรับขั้นตอนการค้นหาแบบต้นไม้ กลยุทธ์แรกขึ้นอยู่กับ NLL เฉลี่ยของห่วงโซ่ทั้งหมด ในขณะที่กลยุทธ์ที่สองดูที่ความแตกต่างเฉลี่ยใน NLL ที่มีและไม่มีย่อหน้า (P) โดยมีและไม่มีคำถาม (Q) สำหรับคำถาม 918 ข้อที่มีอยู่จาก StrategyQA วิธีการนี้ช่วยปรับปรุงคุณภาพคำตอบอย่างมีนัยสำคัญเมื่อเทียบกับพื้นฐานด้วย CoT (60%) ตัวเลือกการค้นหาทั้งสองให้ประมาณ 66% (กลยุทธ์ที่มีเดลต้าสูงกว่าเล็กน้อย) หากมีการส่งข้อมูลที่เป็นทอง คุณภาพจะอยู่ที่ประมาณ 81% ซึ่งเป็นขีดจำกัดสูงสุดสำหรับ OPT Darklang ดูเหมือนว่าจะไปที่ไหนสักแห่ง แต่ด้วยวิธีที่แตกต่างออกไปเล็กน้อย

บทความนี้อ้างอิงจาก Telegram เสา.

อ่านเพิ่มเติมเกี่ยวกับ AI:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

ความอยากอาหารของสถาบันเติบโตขึ้นสู่ Bitcoin ETFs ท่ามกลางความผันผวน

การเปิดเผยผ่านการยื่นเอกสาร 13F เผยให้เห็นนักลงทุนสถาบันที่มีชื่อเสียงกำลังเล่น Bitcoin ETFs ซึ่งตอกย้ำถึงการยอมรับที่เพิ่มขึ้นของ ...

รู้เพิ่มเติม

วันพิพากษามาถึง: ชะตากรรมของ CZ แขวนอยู่ในสมดุลขณะที่ศาลสหรัฐฯ พิจารณาคำร้องของ DOJ

ฉางเผิง จ้าว เตรียมเผชิญโทษจำคุกในศาลสหรัฐฯ ในเมืองซีแอตเทิลวันนี้

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
Injective ผนึกกำลัง AltLayer เพื่อนำการรักษาความปลอดภัยกลับมาสู่ inEVM
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
Injective ผนึกกำลัง AltLayer เพื่อนำการรักษาความปลอดภัยกลับมาสู่ inEVM
May 3, 2024
Masa ร่วมมือกับ Teller เพื่อแนะนำกลุ่มการให้ยืมของ MASA ซึ่งช่วยให้สามารถกู้ยืม USDC บนฐานได้
ตลาด รายงานข่าว เทคโนโลยี
Masa ร่วมมือกับ Teller เพื่อแนะนำกลุ่มการให้ยืมของ MASA ซึ่งช่วยให้สามารถกู้ยืม USDC บนฐานได้
May 3, 2024
Velodrome เปิดตัวเวอร์ชัน Superchain Beta ในอีกไม่กี่สัปดาห์ข้างหน้าและขยายข้ามบล็อคเชน OP Stack Layer 2
ตลาด รายงานข่าว เทคโนโลยี
Velodrome เปิดตัวเวอร์ชัน Superchain Beta ในอีกไม่กี่สัปดาห์ข้างหน้าและขยายข้ามบล็อคเชน OP Stack Layer 2
May 3, 2024
CARV ประกาศความร่วมมือกับ Aethir เพื่อกระจายอำนาจชั้นข้อมูลและแจกจ่ายรางวัล
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
CARV ประกาศความร่วมมือกับ Aethir เพื่อกระจายอำนาจชั้นข้อมูลและแจกจ่ายรางวัล
May 3, 2024
CRYPTOMERIA LABS PTE. บจก.