รายงานข่าว เทคโนโลยี
มิถุนายน 01, 2023

OpenAI: การสร้างแบบจำลองรางวัลภายใต้การดูแลกระบวนการใหม่ช่วยปรับปรุงการใช้เหตุผลของ AI

ในบทสรุป

OpenAIการสร้างแบบจำลองรางวัลภายใต้การดูแลกระบวนการ (PRM) มีเป้าหมายเพื่อประเมินขั้นตอนขั้นกลางและการให้เหตุผลของแบบจำลอง AI ซึ่งนำไปสู่การปรับปรุงประสิทธิภาพและเมตริก

OpenAI ได้ดึงดูดความสนใจของชุมชน AI อีกครั้งด้วยผลงานที่ก้าวล้ำในการสร้างแบบจำลองรางวัลภายใต้การดูแลของกระบวนการ (PRMs). แนวทางใหม่นี้มีจุดมุ่งหมายเพื่อประเมินขั้นตอนขั้นกลางและการให้เหตุผลของแบบจำลอง AI ซึ่งนำไปสู่การปรับปรุงประสิทธิภาพและเมตริก

OpenAI: การสร้างแบบจำลองรางวัลภายใต้การดูแลกระบวนการใหม่ช่วยปรับปรุงการใช้เหตุผลของ AI
เครดิต: Metaverse Post (mpost.io)
แนะนำ: ChatGPT สามารถเปลี่ยนวอลล์สตรีทได้ด้วยการทำให้การซื้อขายง่ายขึ้น

ในการเรียนรู้แบบเสริมแรงแบบดั้งเดิมจากความคิดเห็นของมนุษย์ (อาร์แอลเอชเอฟ) โดยทั่วไปความคิดเห็นของโมเดลจะขึ้นอยู่กับผลลัพธ์โดยรวมที่สร้างโดยโมเดล อย่างไรก็ตาม, OpenAIงานวิจัยใหม่ของสำรวจแนวคิดในการประเมินแต่ละขั้นตอนและกระบวนการให้เหตุผลซึ่งดำเนินการโดยแบบจำลอง เมื่อทำเช่นนั้น พวกเขาสามารถให้การประเมินและข้อเสนอแนะที่ละเอียดยิ่งขึ้น

เพื่อจัดการกับปัญหานี้ OpenAI เลือกปัญหาทางคณิตศาสตร์ที่ต้องใช้การกระทำหลายอย่าง แยกต่างหาก แบบ ได้รับการฝึกอบรมให้ประเมินขั้นตอนขั้นกลางอย่างมีประสิทธิภาพ ทำหน้าที่เป็นนักวิจารณ์เพื่อระบุการตัดสินที่ผิดพลาดของแบบจำลองหลัก กระบวนการนี้ไม่เพียงแต่ปรับปรุงประสิทธิภาพโดยรวม แต่ยังปรับปรุงเมตริกที่ใช้ในการประเมินความสามารถของโมเดลด้วย

OpenAI มีความก้าวหน้าอย่างมากในด้านนี้ ด้วยการเปิดตัวชุดข้อมูลที่คัดสรรมาอย่างพิถีพิถันซึ่งประกอบด้วย 800,000 การตัดสินที่ทำเครื่องหมายไว้. การตัดสินแต่ละครั้งแสดงถึงขั้นตอนที่แยกจากกันในการแก้ปัญหาทางคณิตศาสตร์และสร้างขึ้นด้วยตนเอง สิ่งนี้เน้นให้เห็นถึงระดับความทุ่มเทและทรัพยากร OpenAI ลงทุนในการพัฒนาชุดข้อมูลคุณภาพสูงตั้งคำถามเกี่ยวกับปริมาณข้อมูลที่รวบรวมสำหรับโดเมนอื่นๆ เช่น การเขียนโปรแกรมหรือคำถามปลายเปิด

การฝึกอบรมของ GPT-4, OpenAIการทำซ้ำล่าสุดของ GPT ซีรีส์กำลังดำเนินไปด้วยดีอยู่แล้ว แม้ว่าองค์ประกอบ RLHF จะไม่รวมอยู่ในการทดลองปัจจุบัน แต่มีการใช้แบบจำลองภาษาล้วนๆ โดยเฉพาะอย่างยิ่ง OpenAI ระบุว่ามีหลายเวอร์ชันของ GPT-4แม้กระทั่งรุ่นที่เล็กที่สุดก็ต้องใช้ทรัพยากรน้อยลงอย่างมากสำหรับการฝึกอบรม ซึ่งน้อยกว่าประมาณ 200 เท่า

ตัวอย่างที่น่าสนใจที่แบ่งปันโดย OpenAI แสดงให้เห็นว่าตัวแบบประเมินแต่ละขั้นตอนการตัดสินใจอย่างไร ในภาพหน้าจอที่รวมอยู่ในโพสต์ ข้อผิดพลาดในโซลูชันจะถูกตั้งค่าสถานะและให้คะแนนความถูกต้องต่ำสุดซึ่งเน้นด้วยสีแดง
เครดิต: OpenAI

ตัวอย่างที่น่าสนใจที่แบ่งปันโดย OpenAI แสดงให้เห็นว่าแบบจำลองประเมินอย่างไร ขั้นตอนการตัดสินใจของแต่ละคน ในภาพหน้าจอที่รวมอยู่ในโพสต์ ข้อผิดพลาดในโซลูชันจะถูกตั้งค่าสถานะและให้คะแนนความถูกต้องต่ำสุดซึ่งเน้นด้วยสีแดง การสาธิตนี้เน้นให้เห็นถึงความสามารถของแบบจำลองในการให้เหตุผลและให้ข้อมูลเชิงลึกอันมีค่าในกระบวนการตัดสินใจ OpenAI ยังได้ให้คำแนะนำสำหรับมาร์กอัป เสนอโอกาสให้ฝูงชนมีส่วนร่วมและรับประโยชน์จากงานของพวกเขา

As OpenAI ยังคงผลักดันขอบเขตของการวิจัย AI โดยมุ่งเน้นไปที่การให้เหตุผลของแบบจำลองและการสร้างแบบจำลองรางวัลที่ดูแลโดยกระบวนการ ซึ่งนำมาซึ่งความเป็นไปได้ใหม่ ๆ สำหรับความสามารถ AI ที่ได้รับการปรับปรุง ความก้าวหน้าครั้งล่าสุดนี้แสดงให้เห็นถึงความมุ่งมั่นในการปรับปรุงประสิทธิภาพของโมเดลและเปิดประตูสู่ความก้าวหน้าเพิ่มเติมในด้านนี้

อ่านเพิ่มเติมเกี่ยวกับ AI:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

ความอยากอาหารของสถาบันเติบโตขึ้นสู่ Bitcoin ETFs ท่ามกลางความผันผวน

การเปิดเผยผ่านการยื่นเอกสาร 13F เผยให้เห็นนักลงทุนสถาบันที่มีชื่อเสียงกำลังเล่น Bitcoin ETFs ซึ่งตอกย้ำถึงการยอมรับที่เพิ่มขึ้นของ ...

รู้เพิ่มเติม

วันพิพากษามาถึง: ชะตากรรมของ CZ แขวนอยู่ในสมดุลขณะที่ศาลสหรัฐฯ พิจารณาคำร้องของ DOJ

ฉางเผิง จ้าว เตรียมเผชิญโทษจำคุกในศาลสหรัฐฯ ในเมืองซีแอตเทิลวันนี้

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
การเปลี่ยนแปลงของ Donald Trump ไปสู่ ​​Crypto: จากฝ่ายตรงข้ามไปสู่ผู้สนับสนุน และความหมายสำหรับตลาด Cryptocurrency ของสหรัฐฯ
บัญชีธุรกิจ ตลาด เรื่องราวและบทวิจารณ์ เทคโนโลยี
การเปลี่ยนแปลงของ Donald Trump ไปสู่ ​​Crypto: จากฝ่ายตรงข้ามไปสู่ผู้สนับสนุน และความหมายสำหรับตลาด Cryptocurrency ของสหรัฐฯ
May 10, 2024
Layer3 เตรียมเปิดตัวโทเค็น L3 ในฤดูร้อนนี้ โดยจัดสรร 51% ของอุปทานทั้งหมดให้กับชุมชน
ตลาด รายงานข่าว เทคโนโลยี
Layer3 เตรียมเปิดตัวโทเค็น L3 ในฤดูร้อนนี้ โดยจัดสรร 51% ของอุปทานทั้งหมดให้กับชุมชน
May 10, 2024
คำเตือนครั้งสุดท้ายของ Edward Snowden ถึงนักพัฒนา Bitcoin: “ทำให้ความเป็นส่วนตัวเป็นลำดับความสำคัญระดับโปรโตคอล ไม่เช่นนั้นความเสี่ยงที่จะสูญเสียมันไป”
ตลาด Security Wiki ซอฟต์แวร์ เรื่องราวและบทวิจารณ์ เทคโนโลยี
คำเตือนครั้งสุดท้ายของ Edward Snowden ถึงนักพัฒนา Bitcoin: “ทำให้ความเป็นส่วนตัวเป็นลำดับความสำคัญระดับโปรโตคอล ไม่เช่นนั้นความเสี่ยงที่จะสูญเสียมันไป”
May 10, 2024
Mint เครือข่าย Ethereum Layer 2 ที่ขับเคลื่อนด้วยการมองโลกในแง่ดีจะเปิดตัว Mainnet ในวันที่ 15 พฤษภาคม
รายงานข่าว เทคโนโลยี
Mint เครือข่าย Ethereum Layer 2 ที่ขับเคลื่อนด้วยการมองโลกในแง่ดีจะเปิดตัว Mainnet ในวันที่ 15 พฤษภาคม
May 10, 2024
CRYPTOMERIA LABS PTE. บจก.