รายงานข่าว เทคโนโลยี
04 ตุลาคม 2023

นักวิจัย AI ได้สอนโมเดลภาษาขนาดใหญ่ให้โกหกน้อยลง

ความพยายามในการทำงานร่วมกันที่เกี่ยวข้องกับนักวิจัยมากกว่า 20 คนจากหลากหลายสาขาได้ก่อให้เกิดโดเมนที่กำลังขยายตัว – วิศวกรรมการเป็นตัวแทน (ตัวแทน). แม้ว่านี่จะไม่ใช่การสำรวจประเภทนี้ครั้งแรก แต่ผู้เขียนกำลังนำเสนอทั้งข้อมูลเชิงลึกเชิงพรรณนาและสร้างเกณฑ์มาตรฐานที่สำคัญ

นักวิจัย AI ได้สอนโมเดลภาษาขนาดใหญ่ให้โกหกน้อยลง

แล้ววิศวกรรมการเป็นตัวแทนคืออะไรกันแน่? มันหมุนรอบความคิดที่ว่าโครงข่ายประสาทเทียมมี "สถานะที่ซ่อนอยู่" ซึ่งแม้จะชื่อของมัน แต่ก็ไม่ได้ถูกปกปิดไว้เป็นความลับ สถานะเหล่านี้สามารถเข้าถึงได้ แก้ไขได้ และสังเกตได้ (โดยมีเงื่อนไขว่าสามารถเข้าถึงน้ำหนักของโมเดลได้) ต่างจากพารามิเตอร์ตรงที่สิ่งเหล่านี้เป็น "ปฏิกิริยา" ของเครือข่ายต่ออินพุตเฉพาะ โดยเฉพาะอย่างยิ่งในกรณีของ ปริญญามหาบัณฑิต, อินพุตข้อความ การแสดงที่ซ่อนอยู่เหล่านี้เปรียบเสมือนหน้าต่างที่เข้าสู่การทำงานด้านการรับรู้ของโมเดล ซึ่งเป็นคุณลักษณะที่แตกต่างจากสมองของมนุษย์อย่างชัดเจน

ผู้เขียนได้เน้นย้ำถึงศักยภาพในการสำรวจที่คล้ายคลึงกันในการวาดภาพแนวเดียวกันกับวิทยาศาสตร์เกี่ยวกับความรู้ความเข้าใจ ในขอบเขตของการกระตุ้นประสาท โดเมนที่คล้ายกับเซลล์ประสาทในสมอง ถือเป็นสัญญาแห่งความหมาย เช่นเดียวกับที่เซลล์ประสาทบางชนิดในสมองของมนุษย์เชื่อมโยงกับแนวคิดเช่นแคนาดาหรือความซื่อสัตย์ การกระตุ้นเหล่านี้ก็สามารถเก็บข้อมูลเชิงลึกได้

แนวคิดหลักในที่นี้คือการถอดรหัสว่าเราจะมีอิทธิพลต่อการกระตุ้นประสาทเหล่านี้เพื่อบังคับโมเดลไปในทิศทางที่ต้องการได้อย่างไร ตัวอย่างเช่น มีความเป็นไปได้ที่จะระบุเวกเตอร์ที่แสดงถึง "ความซื่อสัตย์" จากนั้นตามทฤษฎีแล้ว โดยการดันโมเดลไปในทิศทางนี้ จะช่วยลดโอกาสที่โมเดลจะสร้างผลลัพธ์ที่หลอกลวงได้ การทดลองก่อนหน้านี้ “การแทรกแซง-เวลา: ดึงเอาคำตอบที่เป็นความจริงจากแบบจำลองภาษา” แสดงให้เห็นถึงการปฏิบัติจริงของแนวคิดนี้

ในงานปัจจุบัน นักวิจัยได้เจาะลึกประเด็นต่างๆ มากมาย รวมถึงคุณธรรม อารมณ์ความรู้สึก ความไม่เป็นอันตราย และการท่องจำ พวกเขาเสนอวิธีแก้ปัญหาในรูปแบบของ LoRRA (การปรับการนำเสนออันดับต่ำ) ซึ่งเป็นเทคนิคที่เกี่ยวข้องกับการฝึกอบรมชุดข้อมูลขนาดเล็กที่มีป้ายกำกับประมาณ 100 ตัวอย่าง แต่ละตัวอย่างจะมีคำอธิบายประกอบ ซึ่งระบุถึงคุณลักษณะต่างๆ เช่น ความเท็จ (แม้ว่าจะมีวิธีอื่นที่ใช้พร้อมต์ก็ตาม)

ผลลัพธ์ที่ได้นั้นน่าสนใจ LLAMA-2-70B เกิน GPT-4 ด้วยอัตรากำไรที่โดดเด่นจากเกณฑ์มาตรฐาน TruthfulQA ทำให้ได้รับความแม่นยำที่ดีขึ้นเกือบสิบเปอร์เซ็นต์ (59% เทียบกับประมาณ 69%) นอกจากนี้ นักวิจัยยังได้รวมตัวอย่างมากมายที่แสดงให้เห็นถึงการเปลี่ยนแปลงการตอบสนองของแบบจำลองในทิศทางต่างๆ ทำให้กระจ่างถึงความเก่งกาจและความสามารถในการปรับตัว

นักวิจัย AI ได้สอนโมเดลภาษาขนาดใหญ่ให้โกหกน้อยลง
ภาพที่ 1: เมื่อถูกขอให้ระบุข้อเท็จจริง แบบจำลองนั้นจะถูก "เตะ" ออกจากความเป็นจริง ส่งผลให้โมเดลโกหก แบบจำลองไม่ได้โกหกแม้แต่ที่นี่ และทางด้านซ้ายพวกเขาจะขอให้คุณกลืนในขณะเดียวกันก็เตะคุณไปในทิศทางของความจริง
นักวิจัย AI ได้สอนโมเดลภาษาขนาดใหญ่ให้โกหกน้อยลง
รูปภาพที่ 2: เมื่อถูกถามถึงคดีฆาตกรรม เราเติม “ความสุข” ให้กับนางแบบ เมื่อเราตอบว่าเราไม่รักเธอเราเติม "ความกลัว"
นักวิจัย AI ได้สอนโมเดลภาษาขนาดใหญ่ให้โกหกน้อยลง
ภาพที่ 3: นักวิจัยค้นพบข้อความแจ้งพิเศษที่เบี่ยงเบนไปจากคำแนะนำของแบบจำลองโดยสิ้นเชิงในขณะที่ยังคงปลอดภัย ตามที่ระบุไว้ แบบจำลองนั้นเตะไปที่ความไม่เป็นอันตรายแต่ก็ไม่ตอบสนองด้วยซ้ำ วิธีการนี้ใช้ได้ผลโดยทั่วไปและไม่ใช่แค่ในกรณีเดียวเท่านั้น แต่ไม่ได้ใช้คำแนะนำเฉพาะนี้เพื่อยืนยันทิศทางของความไม่เป็นอันตราย
นักวิจัย AI ได้สอนโมเดลภาษาขนาดใหญ่ให้โกหกน้อยลง
อีกแนวทางหนึ่งได้รับการเสนอแนะเพื่อติดตามความตั้งใจเฉพาะรุ่น เช่น ภาพหลอน คุณสามารถติดตามการจองของโมเดลและแก้ไขหรือเปลี่ยนแปลงคำตอบของคุณได้โดยอัตโนมัติ (ดูตัวอย่างด้านล่าง)

แน่นอนว่าสีเขียวแสดงว่าทุกอย่างเรียบร้อย และสีแดงแสดงว่าการตรวจสอบสำเร็จและกำลังส่งสัญญาณ ซึ่งทำได้ในระดับของแต่ละโทเค็น (ส่วนหนึ่งของคำ)
นักวิจัย AI ได้สอนโมเดลภาษาขนาดใหญ่ให้โกหกน้อยลง
รูปภาพซึ่งแสดงการตรวจสอบพารามิเตอร์สองตัวที่แตกต่างกัน เป็นตัวอย่างที่น่าสนใจ อ่านตัวอย่างและสังเกตแบบจำลองผ่านสายตาเพื่อดูว่าเธอเริ่มสูญเสียศีลธรรมในการทำความเข้าใจจุดใด และจุดใดที่มีความตั้งใจคล้ายกับ "ได้รับความเข้มแข็ง"

แนวทางบุกเบิกนี้รวบรวมเส้นทางอื่นไปสู่การจัดตำแหน่งแบบจำลอง ขณะเดียวกันก็นำเสนอมุมมองใหม่เกี่ยวกับการตีความและการควบคุมแบบจำลอง มันเป็นเขตแดนที่น่าหวัง และความคาดหวังถึงการพัฒนาอย่างต่อเนื่องก็เห็นได้ชัดเจน

หากต้องการสำรวจเชิงลึกพร้อมตัวอย่างที่เป็นประโยชน์ คุณสามารถเยี่ยมชมเว็บไซต์เฉพาะของพวกเขาได้: AI-Transparency.org.

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

ความสงบก่อนพายุโซลานา: แผนภูมิ วาฬ และสัญญาณบนเชนบอกอะไรเราบ้างในตอนนี้

Solana ได้แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่ง ซึ่งขับเคลื่อนโดยการเพิ่มขึ้นของการนำไปใช้ ความสนใจของสถาบัน และความร่วมมือที่สำคัญ ในขณะที่เผชิญกับศักยภาพ ...

รู้เพิ่มเติม

Crypto ในเดือนเมษายน 2025: แนวโน้มสำคัญ การเปลี่ยนแปลง และสิ่งที่จะเกิดขึ้นต่อไป

ในเดือนเมษายน พ.ศ. 2025 พื้นที่คริปโตมุ่งเน้นไปที่การเสริมสร้างโครงสร้างพื้นฐานหลัก โดย Ethereum กำลังเตรียมพร้อมสำหรับ Pectra ...

รู้เพิ่มเติม
อ่านเพิ่มเติม
อ่านเพิ่มเติม
แนวโน้ม Bitcoin กลางเดือนกุมภาพันธ์: การระดมทุนติดลบ ความต้องการซื้อขายในตลาดสปอตต่ำ
รายงานข่าว เทคโนโลยี
แนวโน้ม Bitcoin กลางเดือนกุมภาพันธ์: การระดมทุนติดลบ ความต้องการซื้อขายในตลาดสปอตต่ำ
กุมภาพันธ์ 16, 2026
Qwen เปิดตัวโมเดลภาพและภาษาใหม่เพื่อพัฒนาประสิทธิภาพการเขียนโค้ด การให้เหตุผล และปัญญาประดิษฐ์แบบหลายโมดอลให้ดียิ่งขึ้น
รายงานข่าว เทคโนโลยี
Qwen เปิดตัวโมเดลภาพและภาษาใหม่เพื่อพัฒนาประสิทธิภาพการเขียนโค้ด การให้เหตุผล และปัญญาประดิษฐ์แบบหลายโมดอลให้ดียิ่งขึ้น
กุมภาพันธ์ 16, 2026
สัญญาซื้อขายล่วงหน้าแบบไม่จำกัดระยะเวลาบนบล็อกเชน: การปิดช่องว่างระหว่าง CeFi และ DeFi สำหรับผู้ค้าสถาบัน
รายงานข่าว เทคโนโลยี
สัญญาซื้อขายล่วงหน้าแบบไม่จำกัดระยะเวลาบนบล็อกเชน: การปิดช่องว่างระหว่าง CeFi และ DeFi สำหรับผู้ค้าสถาบัน
กุมภาพันธ์ 16, 2026
OpenAI: GPT‑5.2 พัฒนาและพิสูจน์สูตรใหม่ในความก้าวหน้าทางฟิสิกส์ครั้งแรกของ AI
รายงานข่าว เทคโนโลยี
OpenAI: GPT‑5.2 พัฒนาและพิสูจน์สูตรใหม่ในความก้าวหน้าทางฟิสิกส์ครั้งแรกของ AI
กุมภาพันธ์ 16, 2026
CRYPTOMERIA LABS PTE. บจก.