รายงานข่าว เทคโนโลยี
ตุลาคม 27, 2023

นักวิจัยทำซ้ำ OpenAIการทำงานของ Proximal Policy Optimization (PPO) ใน RLHF

การเรียนรู้แบบเสริมกำลังจากผลตอบรับของมนุษย์ (RLHF) เป็นส่วนสำคัญของระบบการฝึกอบรมเช่น ChatGPTและต้องอาศัยวิธีการเฉพาะทางเพื่อให้บรรลุผลสำเร็จ หนึ่งในวิธีการเหล่านี้คือ Proximal Policy Optimization (PPO) ในตอนแรก รู้สึก ภายในกำแพงของ OpenAI ในปี 2017 เมื่อมองแวบแรก PPO โดดเด่นด้วยคำมั่นสัญญาของความเรียบง่ายในการใช้งานและจำนวนไฮเปอร์พารามิเตอร์ที่ค่อนข้างต่ำซึ่งจำเป็นในการปรับแต่งโมเดลอย่างละเอียด อย่างไรก็ตามอย่างที่พวกเขาพูดกันว่าปีศาจอยู่ในรายละเอียด

นักวิจัยทำซ้ำ OpenAIการทำงานของ Proximal Policy Optimization (PPO) ใน RLHF

เมื่อเร็ว ๆ นี้โพสต์บล็อกเรื่อง “รายละเอียดการดำเนินการ 37 รายการของการเพิ่มประสิทธิภาพนโยบายใกล้เคียง” ให้ความกระจ่างเกี่ยวกับความซับซ้อนของ PPO (เตรียมพร้อมสำหรับการประชุม ICLR) ชื่อเพียงอย่างเดียวบ่งบอกถึงความท้าทายที่ต้องเผชิญในการนำวิธีการที่ตรงไปตรงมานี้ไปใช้ น่าประหลาดใจที่ผู้เขียนใช้เวลาสามปีในการรวบรวมข้อมูลที่จำเป็นทั้งหมดและสร้างผลลัพธ์ขึ้นมาใหม่

รหัสใน OpenAI พื้นที่เก็บข้อมูลมีการเปลี่ยนแปลงที่สำคัญระหว่างเวอร์ชัน มีบางแง่มุมที่ไม่สามารถอธิบายได้ และลักษณะเฉพาะที่ปรากฏเป็นข้อบกพร่องทำให้เกิดผลลัพธ์ ความซับซ้อนของ PPO จะเห็นได้ชัดเมื่อคุณเจาะลึกรายละเอียด และสำหรับผู้ที่สนใจในการทำความเข้าใจอย่างลึกซึ้งหรือการพัฒนาตนเอง เรามีวิดีโอสรุปที่แนะนำเป็นอย่างยิ่ง

แต่เรื่องราวไม่ได้จบเพียงแค่นั้น ผู้เขียนคนเดียวกันจึงตัดสินใจกลับมาทบทวนอีกครั้ง openai/lm-พื้นที่เก็บข้อมูลการตั้งค่าของมนุษย์ ตั้งแต่ปี 2019 ซึ่งมีบทบาทสำคัญในการปรับแต่งโมเดลภาษาตามความต้องการของมนุษย์โดยใช้ PPO พื้นที่เก็บข้อมูลนี้ถือเป็นการพัฒนาในช่วงแรกๆ ChatGPT. โพสต์บล็อกล่าสุด “รายละเอียดการใช้งาน N ของ RLHF กับ PPO” ทำซ้ำอย่างใกล้ชิด OpenAIงานของ แต่ใช้ PyTorch และไลบรารีสมัยใหม่แทน TensorFlow ที่ล้าสมัย การเปลี่ยนแปลงนี้มาพร้อมกับชุดความท้าทายของตัวเอง เช่น ความแตกต่างในการใช้งาน Adam Optimizer ระหว่างเฟรมเวิร์ก ทำให้เป็นไปไม่ได้ที่จะจำลองการฝึกอบรมโดยไม่มีการปรับเปลี่ยน

บางทีแง่มุมที่น่าสนใจที่สุดของการเดินทางครั้งนี้ก็คือภารกิจที่จะทำการทดลองกับการตั้งค่า GPU เฉพาะเพื่อให้ได้หน่วยวัดดั้งเดิมและเส้นโค้งการเรียนรู้ เป็นการเดินทางที่เต็มไปด้วยความท้าทาย ตั้งแต่ข้อจำกัดของหน่วยความจำใน GPU ประเภทต่างๆ ไปจนถึงการย้ายข้อมูล OpenAI ชุดข้อมูลระหว่างสถานที่จัดเก็บข้อมูล

โดยสรุป การสำรวจ Proximal Policy Optimization (PPO) ในการเรียนรู้แบบเสริมกำลังจากผลตอบรับของมนุษย์ (RLHF) เผยให้เห็นโลกแห่งความซับซ้อนอันน่าทึ่ง

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

ความอยากอาหารของสถาบันเติบโตขึ้นสู่ Bitcoin ETFs ท่ามกลางความผันผวน

การเปิดเผยผ่านการยื่นเอกสาร 13F เผยให้เห็นนักลงทุนสถาบันที่มีชื่อเสียงกำลังเล่น Bitcoin ETFs ซึ่งตอกย้ำถึงการยอมรับที่เพิ่มขึ้นของ ...

รู้เพิ่มเติม

วันพิพากษามาถึง: ชะตากรรมของ CZ แขวนอยู่ในสมดุลขณะที่ศาลสหรัฐฯ พิจารณาคำร้องของ DOJ

ฉางเผิง จ้าว เตรียมเผชิญโทษจำคุกในศาลสหรัฐฯ ในเมืองซีแอตเทิลวันนี้

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
การเปลี่ยนแปลงของ Donald Trump ไปสู่ ​​Crypto: จากฝ่ายตรงข้ามไปสู่ผู้สนับสนุน และความหมายสำหรับตลาด Cryptocurrency ของสหรัฐฯ
บัญชีธุรกิจ ตลาด เรื่องราวและบทวิจารณ์ เทคโนโลยี
การเปลี่ยนแปลงของ Donald Trump ไปสู่ ​​Crypto: จากฝ่ายตรงข้ามไปสู่ผู้สนับสนุน และความหมายสำหรับตลาด Cryptocurrency ของสหรัฐฯ
May 10, 2024
Layer3 เตรียมเปิดตัวโทเค็น L3 ในฤดูร้อนนี้ โดยจัดสรร 51% ของอุปทานทั้งหมดให้กับชุมชน
ตลาด รายงานข่าว เทคโนโลยี
Layer3 เตรียมเปิดตัวโทเค็น L3 ในฤดูร้อนนี้ โดยจัดสรร 51% ของอุปทานทั้งหมดให้กับชุมชน
May 10, 2024
คำเตือนครั้งสุดท้ายของ Edward Snowden ถึงนักพัฒนา Bitcoin: “ทำให้ความเป็นส่วนตัวเป็นลำดับความสำคัญระดับโปรโตคอล ไม่เช่นนั้นความเสี่ยงที่จะสูญเสียมันไป”
ตลาด Security Wiki ซอฟต์แวร์ เรื่องราวและบทวิจารณ์ เทคโนโลยี
คำเตือนครั้งสุดท้ายของ Edward Snowden ถึงนักพัฒนา Bitcoin: “ทำให้ความเป็นส่วนตัวเป็นลำดับความสำคัญระดับโปรโตคอล ไม่เช่นนั้นความเสี่ยงที่จะสูญเสียมันไป”
May 10, 2024
Mint เครือข่าย Ethereum Layer 2 ที่ขับเคลื่อนด้วยการมองโลกในแง่ดีจะเปิดตัว Mainnet ในวันที่ 15 พฤษภาคม
รายงานข่าว เทคโนโลยี
Mint เครือข่าย Ethereum Layer 2 ที่ขับเคลื่อนด้วยการมองโลกในแง่ดีจะเปิดตัว Mainnet ในวันที่ 15 พฤษภาคม
May 10, 2024
CRYPTOMERIA LABS PTE. บจก.