OpenAI ประกาศ Evals กรอบซอฟต์แวร์โอเพ่นซอร์สสำหรับการประเมินโมเดล AI
ในบทสรุป
OpenAI หวังว่าจะรวบรวมเกณฑ์มาตรฐานเพื่อประเมินโมเดล AI เช่น GPT-4.
Stripe บริษัทประมวลผลการชำระเงินได้ใช้ Evals เพื่อวัดความถูกต้องแม่นยำแล้ว GPTเครื่องมือเอกสาร -powered
OpenAI จะได้รับการอนุญาต GPT-4 เข้าถึงได้ในระยะเวลาจำกัดสำหรับผู้ที่มีส่วนร่วมในการประเมินคุณภาพสูง
ควบคู่ไปกับการประกาศของ GPT-4, OpenAI ได้ประกาศกรอบซอฟต์แวร์โอเพ่นซอร์ส OpenAI เอวาลส์. เครื่องมือนี้ได้รับการออกแบบเพื่อสร้างและเรียกใช้การวัดประสิทธิภาพที่ประเมินประสิทธิภาพของแบบจำลองต่างๆ เช่น GPT-4. กับเอวาลส์ OpenAI หวังว่าจะรวบรวมเกณฑ์มาตรฐานสำหรับการทดสอบโมเดล AI
“เราใช้ Evals เพื่อเป็นแนวทางในการพัฒนาโมเดลของเรา (ทั้งระบุข้อบกพร่องและป้องกันการถดถอย) และผู้ใช้ของเราสามารถใช้มันเพื่อติดตามประสิทธิภาพในรุ่นต่างๆ ของโมเดล (ซึ่งจะออกมาเป็นประจำ) และพัฒนาการผสานรวมผลิตภัณฑ์” บริษัทอธิบายไว้ใน ก โพสต์บล็อก.
Stripe ซึ่งเป็นบริษัทประมวลผลการชำระเงินยอดนิยม ได้ใช้ Evals เพื่อเสริมการประเมินโดยมนุษย์และวัดความแม่นยำของการประเมินแล้ว GPTเครื่องมือเอกสาร -powered
นักพัฒนาสามารถใช้ Evals เพื่อสร้างและเรียกใช้การประเมินที่:
- ใช้ชุดข้อมูลเพื่อสร้างพรอมต์
- วัดคุณภาพของความสำเร็จที่มอบให้โดย OpenAI แบบและ
- เปรียบเทียบประสิทธิภาพระหว่างชุดข้อมูลและรุ่นต่างๆ
ด้วยรหัสโอเพ่นซอร์ส นักพัฒนายังสามารถเขียนและเพิ่ม Eval ที่กำหนดเอง และ หลายเทมเพลต ที่อาจรองรับเกณฑ์มาตรฐานที่แตกต่างกัน บริษัทได้รวมเทมเพลตที่มีประโยชน์ภายในมากที่สุด รวมถึงเทมเพลตสำหรับ “การประเมินแบบประเมินแบบจำลอง” ซึ่ง GPT-4 สามารถใช้ตรวจสอบการทำงานของตัวเองได้ เพื่อเป็นตัวอย่างในการติดตาม บริษัทได้สร้างการประเมินปริศนาตรรกะที่มีคำแนะนำสิบข้อโดยที่ GPT-4 ล้มเหลว
Evals ยังเข้ากันได้กับการนำเกณฑ์มาตรฐานที่มีอยู่ไปใช้ ซึ่งรวมถึงโน้ตบุ๊กหลายรุ่นที่ใช้เกณฑ์มาตรฐานเชิงวิชาการและการบูรณาการส่วนย่อยย่อยๆ ของ CoQA ในรูปแบบต่างๆ
แม้ว่านักพัฒนาจะไม่ได้รับค่าตอบแทนจากการมีส่วนร่วมกับ Evals OpenAI จะได้รับการอนุญาต GPT-4 การเข้าถึงในระยะเวลาจำกัดสำหรับผู้ที่มีส่วนร่วมใน "การประเมินคุณภาพสูง"
หลังจากนั้นก็มีการประกาศของ Evals OpenAI เมื่อเร็ว ๆ นี้กล่าวว่า มันจะหยุดใช้ข้อมูลที่ส่งโดยลูกค้าผ่านทาง API เพื่อฝึกอบรมหรือปรับปรุงโมเดล เว้นแต่ลูกค้าจะตัดสินใจเลือกใช้ บริษัทเข้าร่วมกับ Meta ในเกณฑ์มาตรฐานการระดมทุนแบบคราวด์ซอร์สในฐานะภารกิจสุดท้ายของมนุษย์ด้วย "การค้นหาตัวอย่างที่เป็นปฏิปักษ์ที่หลอกสถานะปัจจุบันของ - โมเดลศิลปะ” สำหรับมัน ไดน่าเบนช์ เวที
อ่านเพิ่มเติม:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
ซินดี้เป็นนักข่าวที่ Metaverse Postครอบคลุมหัวข้อที่เกี่ยวข้องกับ web3, NFT, metaverse และ AI โดยเน้นไปที่การสัมภาษณ์กับ Web3 ผู้เล่นในอุตสาหกรรม เธอได้พูดคุยกับผู้บริหารระดับ C มากกว่า 30 คนและเพิ่มขึ้นเรื่อยๆ เพื่อนำข้อมูลเชิงลึกอันมีค่ามาสู่ผู้อ่าน Cindy มีพื้นเพมาจากสิงคโปร์ ปัจจุบันประจำอยู่ที่เมืองทบิลิซี รัฐจอร์เจีย เธอสำเร็จการศึกษาระดับปริญญาตรีสาขาการสื่อสารและสื่อศึกษาจากมหาวิทยาลัยเซาท์ออสเตรเลีย และมีประสบการณ์ด้านสื่อสารมวลชนและการเขียนมาหลายทศวรรษ ติดต่อเธอได้ทาง [ป้องกันอีเมล] ด้วยการแถลงข่าว ประกาศ และโอกาสในการสัมภาษณ์
บทความอื่น ๆซินดี้เป็นนักข่าวที่ Metaverse Postครอบคลุมหัวข้อที่เกี่ยวข้องกับ web3, NFT, metaverse และ AI โดยเน้นไปที่การสัมภาษณ์กับ Web3 ผู้เล่นในอุตสาหกรรม เธอได้พูดคุยกับผู้บริหารระดับ C มากกว่า 30 คนและเพิ่มขึ้นเรื่อยๆ เพื่อนำข้อมูลเชิงลึกอันมีค่ามาสู่ผู้อ่าน Cindy มีพื้นเพมาจากสิงคโปร์ ปัจจุบันประจำอยู่ที่เมืองทบิลิซี รัฐจอร์เจีย เธอสำเร็จการศึกษาระดับปริญญาตรีสาขาการสื่อสารและสื่อศึกษาจากมหาวิทยาลัยเซาท์ออสเตรเลีย และมีประสบการณ์ด้านสื่อสารมวลชนและการเขียนมาหลายทศวรรษ ติดต่อเธอได้ทาง [ป้องกันอีเมล] ด้วยการแถลงข่าว ประกาศ และโอกาสในการสัมภาษณ์