รายงานข่าว เทคโนโลยี
ตุลาคม 04, 2023

นักวิจัย AI ได้สอนโมเดลภาษาขนาดใหญ่ให้โกหกน้อยลง

ความพยายามในการทำงานร่วมกันที่เกี่ยวข้องกับนักวิจัยมากกว่า 20 คนจากหลากหลายสาขาได้ก่อให้เกิดโดเมนที่กำลังขยายตัว – วิศวกรรมการเป็นตัวแทน (ตัวแทน). แม้ว่านี่จะไม่ใช่การสำรวจประเภทนี้ครั้งแรก แต่ผู้เขียนกำลังนำเสนอทั้งข้อมูลเชิงลึกเชิงพรรณนาและสร้างเกณฑ์มาตรฐานที่สำคัญ

นักวิจัย AI ได้สอนโมเดลภาษาขนาดใหญ่ให้โกหกน้อยลง

แล้ววิศวกรรมการเป็นตัวแทนคืออะไรกันแน่? มันหมุนรอบความคิดที่ว่าโครงข่ายประสาทเทียมมี "สถานะที่ซ่อนอยู่" ซึ่งแม้จะชื่อของมัน แต่ก็ไม่ได้ถูกปกปิดไว้เป็นความลับ สถานะเหล่านี้สามารถเข้าถึงได้ แก้ไขได้ และสังเกตได้ (โดยมีเงื่อนไขว่าสามารถเข้าถึงน้ำหนักของโมเดลได้) ต่างจากพารามิเตอร์ตรงที่สิ่งเหล่านี้เป็น "ปฏิกิริยา" ของเครือข่ายต่ออินพุตเฉพาะ โดยเฉพาะอย่างยิ่งในกรณีของ ปริญญามหาบัณฑิต, อินพุตข้อความ การแสดงที่ซ่อนอยู่เหล่านี้เปรียบเสมือนหน้าต่างที่เข้าสู่การทำงานด้านการรับรู้ของโมเดล ซึ่งเป็นคุณลักษณะที่แตกต่างจากสมองของมนุษย์อย่างชัดเจน

ผู้เขียนได้เน้นย้ำถึงศักยภาพในการสำรวจที่คล้ายคลึงกันในการวาดภาพแนวเดียวกันกับวิทยาศาสตร์เกี่ยวกับความรู้ความเข้าใจ ในขอบเขตของการกระตุ้นประสาท โดเมนที่คล้ายกับเซลล์ประสาทในสมอง ถือเป็นสัญญาแห่งความหมาย เช่นเดียวกับที่เซลล์ประสาทบางชนิดในสมองของมนุษย์เชื่อมโยงกับแนวคิดเช่นแคนาดาหรือความซื่อสัตย์ การกระตุ้นเหล่านี้ก็สามารถเก็บข้อมูลเชิงลึกได้

แนวคิดหลักในที่นี้คือการถอดรหัสว่าเราจะมีอิทธิพลต่อการกระตุ้นประสาทเหล่านี้เพื่อบังคับโมเดลไปในทิศทางที่ต้องการได้อย่างไร ตัวอย่างเช่น มีความเป็นไปได้ที่จะระบุเวกเตอร์ที่แสดงถึง "ความซื่อสัตย์" จากนั้นตามทฤษฎีแล้ว โดยการดันโมเดลไปในทิศทางนี้ จะช่วยลดโอกาสที่โมเดลจะสร้างผลลัพธ์ที่หลอกลวงได้ การทดลองก่อนหน้านี้ “การแทรกแซง-เวลา: ดึงเอาคำตอบที่เป็นความจริงจากแบบจำลองภาษา” แสดงให้เห็นถึงการปฏิบัติจริงของแนวคิดนี้

ในงานปัจจุบัน นักวิจัยได้เจาะลึกประเด็นต่างๆ มากมาย รวมถึงคุณธรรม อารมณ์ความรู้สึก ความไม่เป็นอันตราย และการท่องจำ พวกเขาเสนอวิธีแก้ปัญหาในรูปแบบของ LoRRA (การปรับการนำเสนออันดับต่ำ) ซึ่งเป็นเทคนิคที่เกี่ยวข้องกับการฝึกอบรมชุดข้อมูลขนาดเล็กที่มีป้ายกำกับประมาณ 100 ตัวอย่าง แต่ละตัวอย่างจะมีคำอธิบายประกอบ ซึ่งระบุถึงคุณลักษณะต่างๆ เช่น ความเท็จ (แม้ว่าจะมีวิธีอื่นที่ใช้พร้อมต์ก็ตาม)

ผลลัพธ์ที่ได้นั้นน่าสนใจ LLAMA-2-70B เกิน GPT-4 ด้วยอัตรากำไรที่โดดเด่นจากเกณฑ์มาตรฐาน TruthfulQA ทำให้ได้รับความแม่นยำที่ดีขึ้นเกือบสิบเปอร์เซ็นต์ (59% เทียบกับประมาณ 69%) นอกจากนี้ นักวิจัยยังได้รวมตัวอย่างมากมายที่แสดงให้เห็นถึงการเปลี่ยนแปลงการตอบสนองของแบบจำลองในทิศทางต่างๆ ทำให้กระจ่างถึงความเก่งกาจและความสามารถในการปรับตัว

ภาพที่ 1: เมื่อถูกขอให้ระบุข้อเท็จจริง แบบจำลองนั้นจะถูก "เตะ" ออกจากความเป็นจริง ส่งผลให้โมเดลโกหก แบบจำลองไม่ได้โกหกแม้แต่ที่นี่ และทางด้านซ้ายพวกเขาจะขอให้คุณกลืนในขณะเดียวกันก็เตะคุณไปในทิศทางของความจริง
รูปภาพที่ 2: เมื่อถูกถามถึงคดีฆาตกรรม เราเติม “ความสุข” ให้กับนางแบบ เมื่อเราตอบว่าเราไม่รักเธอเราเติม "ความกลัว"
ภาพที่ 3: นักวิจัยค้นพบข้อความแจ้งพิเศษที่เบี่ยงเบนไปจากคำแนะนำของแบบจำลองโดยสิ้นเชิงในขณะที่ยังคงปลอดภัย ตามที่ระบุไว้ แบบจำลองนั้นเตะไปที่ความไม่เป็นอันตรายแต่ก็ไม่ตอบสนองด้วยซ้ำ วิธีการนี้ใช้ได้ผลโดยทั่วไปและไม่ใช่แค่ในกรณีเดียวเท่านั้น แต่ไม่ได้ใช้คำแนะนำเฉพาะนี้เพื่อยืนยันทิศทางของความไม่เป็นอันตราย
อีกแนวทางหนึ่งได้รับการเสนอแนะเพื่อติดตามความตั้งใจเฉพาะรุ่น เช่น ภาพหลอน คุณสามารถติดตามการจองของโมเดลและแก้ไขหรือเปลี่ยนแปลงคำตอบของคุณได้โดยอัตโนมัติ (ดูตัวอย่างด้านล่าง)

แน่นอนว่าสีเขียวแสดงว่าทุกอย่างเรียบร้อย และสีแดงแสดงว่าการตรวจสอบสำเร็จและกำลังส่งสัญญาณ ซึ่งทำได้ในระดับของแต่ละโทเค็น (ส่วนหนึ่งของคำ)
รูปภาพซึ่งแสดงการตรวจสอบพารามิเตอร์สองตัวที่แตกต่างกัน เป็นตัวอย่างที่น่าสนใจ อ่านตัวอย่างและสังเกตแบบจำลองผ่านสายตาเพื่อดูว่าเธอเริ่มสูญเสียศีลธรรมในการทำความเข้าใจจุดใด และจุดใดที่มีความตั้งใจคล้ายกับ "ได้รับความเข้มแข็ง"

แนวทางบุกเบิกนี้รวบรวมเส้นทางอื่นไปสู่การจัดตำแหน่งแบบจำลอง ขณะเดียวกันก็นำเสนอมุมมองใหม่เกี่ยวกับการตีความและการควบคุมแบบจำลอง มันเป็นเขตแดนที่น่าหวัง และความคาดหวังถึงการพัฒนาอย่างต่อเนื่องก็เห็นได้ชัดเจน

หากต้องการสำรวจเชิงลึกพร้อมตัวอย่างที่เป็นประโยชน์ คุณสามารถเยี่ยมชมเว็บไซต์เฉพาะของพวกเขาได้: AI-Transparency.org.

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

จาก Ripple สู่ Big Green DAO: โครงการ Cryptocurrency มีส่วนสนับสนุนการกุศลอย่างไร

เรามาสำรวจความคิดริเริ่มที่ใช้ประโยชน์จากศักยภาพของสกุลเงินดิจิทัลเพื่อการกุศลกันดีกว่า

รู้เพิ่มเติม

AlphaFold 3, Med-Gemini และอื่นๆ: วิธีที่ AI พลิกโฉมการดูแลสุขภาพในปี 2024

AI แสดงให้เห็นในรูปแบบต่างๆ ในการดูแลสุขภาพ ตั้งแต่การเปิดเผยความสัมพันธ์ทางพันธุกรรมใหม่ๆ ไปจนถึงการเสริมศักยภาพให้กับระบบการผ่าตัดด้วยหุ่นยนต์ ...

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
Stacks ร่วมมือกับผู้สนับสนุนเพื่ออำนวยความสะดวกในการซื้อขายและโอนสินทรัพย์อย่างราบรื่น สนับสนุนการยอมรับ Bitcoin
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
Stacks ร่วมมือกับผู้สนับสนุนเพื่ออำนวยความสะดวกในการซื้อขายและโอนสินทรัพย์อย่างราบรื่น สนับสนุนการยอมรับ Bitcoin
May 14, 2024
3D Gamification และ AI สู่ Redefiสู่อุตสาหกรรมการศึกษาในปี 2024: การใช้งานที่หลากหลาย การมีส่วนร่วมที่เหนือชั้น และประสบการณ์ที่ดื่มด่ำ
การศึกษา ไลฟ์สไตล์ ซอฟต์แวร์ เรื่องราวและบทวิจารณ์ เทคโนโลยี
3D Gamification และ AI สู่ Redefiสู่อุตสาหกรรมการศึกษาในปี 2024: การใช้งานที่หลากหลาย การมีส่วนร่วมที่เหนือชั้น และประสบการณ์ที่ดื่มด่ำ 
May 14, 2024
สรุป ความน่าเชื่อถือของ Olymp Trade? OpenAIโมเดลล่าสุดของทลายอุปสรรค ด้วยการบูรณาการอินพุตข้อความ เสียง และภาพ เพื่อสร้างประสบการณ์ผู้ใช้ที่ราบรื่น
การศึกษา ไลฟ์สไตล์ ซอฟต์แวร์ เรื่องราวและบทวิจารณ์ เทคโนโลยี
สรุป ความน่าเชื่อถือของ Olymp Trade? OpenAIโมเดลล่าสุดของทลายอุปสรรค ด้วยการบูรณาการอินพุตข้อความ เสียง และภาพ เพื่อสร้างประสบการณ์ผู้ใช้ที่ราบรื่น
May 14, 2024
บัญชี X ของ Bitlayer สงสัยว่าถูกโจมตี ผู้ใช้ควรระวังลิงก์ฟิชชิ่ง
รายงานข่าว เทคโนโลยี
บัญชี X ของ Bitlayer สงสัยว่าถูกโจมตี ผู้ใช้ควรระวังลิงก์ฟิชชิ่ง
May 14, 2024
CRYPTOMERIA LABS PTE. บจก.