GPT-4ผลการปฏิบัติงานของการสอบเนติบัณฑิตของสหรัฐอเมริกาขัดแย้งกับคำกล่าวอ้างของตน
ในบทสรุป
การตรวจสอบของ GPT-4ผลการปฏิบัติงานของการสอบบาร์เครื่องแบบเผยให้เห็นความแตกต่างระหว่างผลการปฏิบัติงานโดยประมาณกับผลการปฏิบัติงานจริง โดยเน้นย้ำถึงความสำคัญของขั้นตอนการประเมินที่โปร่งใสและข้อมูลที่สามารถเข้าถึงได้
OpenAI ได้รับการสนับสนุนให้จัดการกับความคลาดเคลื่อนและพัฒนาแนวทางที่ครอบคลุมและเชื่อถือได้มากขึ้นในการประเมินโมเดล AI เพื่อรับความไว้วางใจและรับรองความน่าเชื่อถือ
ในการตรวจสอบเมื่อเร็ว ๆ นี้ของ GPT-4การแสดงของการสอบเนติบัณฑิตยสภา (EBU) มีข้อสงสัยเกิดขึ้นเกี่ยวกับความถูกต้องของ OpenAIคำกล่าวอ้างของอัตราความสำเร็จของแบบจำลอง ขัดกับคำยืนยันเบื้องต้นที่ว่า GPT-4 มีประสิทธิภาพเหนือกว่า 90% ของบุคคลการค้นพบนี้ชี้ให้เห็นความแตกต่างอย่างมีนัยสำคัญระหว่างประสิทธิภาพโดยประมาณและประสิทธิภาพจริงของแบบจำลอง AI การเปิดเผยนี้เน้นย้ำถึงความสำคัญของขั้นตอนการประเมินที่โปร่งใสและข้อมูลที่เข้าถึงได้สำหรับการตรวจสอบการอ้างสิทธิ์ดังกล่าว
การตรวจสอบมุ่งเน้นไปที่ปัจจัยต่างๆ เพื่อยืนยันความสามารถที่แท้จริงของ GPT-4. ประการแรก การวิเคราะห์ ของการสอบเดือนกุมภาพันธ์ในรัฐอิลลินอยส์เปิดเผยว่า GPT-4คะแนนของเข้าใกล้ เปอร์เซ็นไทล์ที่ 90. อย่างไรก็ตาม สังเกตว่าคะแนนเหล่านี้ได้รับอิทธิพลอย่างมากจากผู้สอบซ้ำซึ่งเคยสอบตกในเดือนกรกฎาคมมาก่อน จึงทำให้ได้คะแนนต่ำกว่าค่าเฉลี่ยโดยรวม
นอกจากนี้ผลสอบเดือนกรกฎาคมยังขัดแย้งกันอีกด้วย OpenAIคำกล่าวอ้างของเผยให้เห็นว่า GPT-4 จะเท่านั้น มีประสิทธิภาพสูงกว่า 68% ของคนและ 48% ของเรียงความ GPT-4ประสิทธิภาพของผู้เข้าสอบครั้งแรก (ไม่รวมการสอบซ้ำ) ได้รับการประเมินที่เปอร์เซ็นไทล์ที่ 63 เมื่อพิจารณาข้อมูลอย่างเป็นทางการจากการทดสอบหลายครั้งในช่วงเวลาต่างๆ กัน โดยเรียงความมีคะแนนต่ำกว่ามากที่เปอร์เซ็นไทล์ที่ 41
ได้มุมมองเพิ่มเติมโดยการตรวจสอบการปฏิบัติงานของผู้สอบผ่าน รวมถึงผู้ได้รับใบอนุญาตและผู้ที่รอใบอนุญาต ในการนี้ GPT-4ประสิทธิภาพโดยรวมของอยู่ในอันดับที่ 48 เปอร์เซ็นไทล์ โดยเรียงความแย่ยิ่งกว่านั้นที่ 15 เปอร์เซ็นไทล์
แม้ว่าการค้นพบนี้จะน่าหนักใจ แต่การพิจารณาถึงความเป็นไปได้ที่จะเกิดข้อผิดพลาดของมนุษย์ในกระบวนการตรวจสอบก็เป็นสิ่งสำคัญ ผู้เขียนบทความเน้นย้ำถึงความสำคัญของการทำความเข้าใจกลุ่มตัวอย่างที่ผู้วิจัยใช้ในการประเมิน GPT-4ประสิทธิภาพของ การขาดข้อมูลที่เป็นทางการ โดยเฉพาะอย่างยิ่งในรูปแบบรวม ทำให้การเปรียบเทียบและการประเมินเปอร์เซ็นไทล์อย่างยุติธรรมเป็นเรื่องยาก การสร้างเทคนิคการประเมินที่ชัดเจนและเข้าถึงได้ซึ่งสามารถประเมินได้โดยผู้มีส่วนได้ส่วนเสียทั้งหมดถือเป็นสิ่งสำคัญ
เพื่อตอบสนองต่อข้อกังวลเหล่านี้ OpenAI ได้รับการกระตุ้นให้แก้ไขข้อขัดแย้งและ ให้ข้อมูลเชิงลึกเพิ่มเติม เข้าสู่กระบวนการประเมินผล ความโปร่งใสและการเปิดกว้างเป็นสิ่งสำคัญสำหรับการได้รับความไว้วางใจและรับประกันความน่าเชื่อถือของโมเดล AI ในโดเมนที่มีเดิมพันสูง เช่น กฎหมาย
ควรสังเกตว่าบทความนี้ไม่ได้กล่าวถึงคะแนนเฉพาะที่ได้รับ GPT-4ซึ่งมีรายงานว่าเป็น 298 การประเมินความสำคัญของคะแนนนี้จำเป็นต้องมีความเข้าใจบริบทของระบบการให้เกรดที่ใช้ เช่นเดียวกับที่เด็กกลับมาจากโรงเรียนพร้อมกับตัว B อาจเป็นสาเหตุของการเฉลิมฉลองหรือความผิดหวัง การตีความของ GPT-4คะแนนขึ้นอยู่กับขนาดงาน
การประเมินผลของ GPT-4ของการสอบเนติบัณฑิต ทำให้เกิดความกังวลอย่างมาก เกี่ยวกับความจริงของ OpenAIการยืนยันเบื้องต้นของ ช่องว่างระหว่างประสิทธิภาพโดยประมาณและประสิทธิภาพจริงเน้นถึงความสำคัญของระบบการประเมินที่ชัดเจนและข้อมูลที่เข้าถึงได้ง่าย OpenAI ได้รับการสนับสนุนให้จัดการกับความท้าทายเหล่านี้และพัฒนาการมีส่วนร่วมและครอบคลุมมากขึ้น วิธีการที่เชื่อถือได้สำหรับ AI การประเมินแบบจำลอง
อ่านเพิ่มเติมเกี่ยวกับ AI:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต