รายงานข่าว เอสเอ็มดับบลิว เทคโนโลยี
May 30, 2023

GPT-4ผลการปฏิบัติงานของการสอบเนติบัณฑิตของสหรัฐอเมริกาขัดแย้งกับคำกล่าวอ้างของตน

ในบทสรุป

การตรวจสอบของ GPT-4ผลการปฏิบัติงานของการสอบบาร์เครื่องแบบเผยให้เห็นความแตกต่างระหว่างผลการปฏิบัติงานโดยประมาณกับผลการปฏิบัติงานจริง โดยเน้นย้ำถึงความสำคัญของขั้นตอนการประเมินที่โปร่งใสและข้อมูลที่สามารถเข้าถึงได้

OpenAI ได้รับการสนับสนุนให้จัดการกับความคลาดเคลื่อนและพัฒนาแนวทางที่ครอบคลุมและเชื่อถือได้มากขึ้นในการประเมินโมเดล AI เพื่อรับความไว้วางใจและรับรองความน่าเชื่อถือ

ในการตรวจสอบเมื่อเร็ว ๆ นี้ของ GPT-4การแสดงของการสอบเนติบัณฑิตยสภา (EBU) มีข้อสงสัยเกิดขึ้นเกี่ยวกับความถูกต้องของ OpenAIคำกล่าวอ้างของอัตราความสำเร็จของแบบจำลอง ขัดกับคำยืนยันเบื้องต้นที่ว่า GPT-4 มีประสิทธิภาพเหนือกว่า 90% ของบุคคลการค้นพบนี้ชี้ให้เห็นความแตกต่างอย่างมีนัยสำคัญระหว่างประสิทธิภาพโดยประมาณและประสิทธิภาพจริงของแบบจำลอง AI การเปิดเผยนี้เน้นย้ำถึงความสำคัญของขั้นตอนการประเมินที่โปร่งใสและข้อมูลที่เข้าถึงได้สำหรับการตรวจสอบการอ้างสิทธิ์ดังกล่าว

GPT-4ผลการปฏิบัติงานของการสอบเนติบัณฑิตของสหรัฐอเมริกาขัดแย้งกับคำกล่าวอ้างของตน
@Midjourney

การตรวจสอบมุ่งเน้นไปที่ปัจจัยต่างๆ เพื่อยืนยันความสามารถที่แท้จริงของ GPT-4. ประการแรก การวิเคราะห์ ของการสอบเดือนกุมภาพันธ์ในรัฐอิลลินอยส์เปิดเผยว่า GPT-4คะแนนของเข้าใกล้ เปอร์เซ็นไทล์ที่ 90. อย่างไรก็ตาม สังเกตว่าคะแนนเหล่านี้ได้รับอิทธิพลอย่างมากจากผู้สอบซ้ำซึ่งเคยสอบตกในเดือนกรกฎาคมมาก่อน จึงทำให้ได้คะแนนต่ำกว่าค่าเฉลี่ยโดยรวม

นอกจากนี้ผลสอบเดือนกรกฎาคมยังขัดแย้งกันอีกด้วย OpenAIคำกล่าวอ้างของเผยให้เห็นว่า GPT-4 จะเท่านั้น มีประสิทธิภาพสูงกว่า 68% ของคนและ 48% ของเรียงความ GPT-4ประสิทธิภาพของผู้เข้าสอบครั้งแรก (ไม่รวมการสอบซ้ำ) ได้รับการประเมินที่เปอร์เซ็นไทล์ที่ 63 เมื่อพิจารณาข้อมูลอย่างเป็นทางการจากการทดสอบหลายครั้งในช่วงเวลาต่างๆ กัน โดยเรียงความมีคะแนนต่ำกว่ามากที่เปอร์เซ็นไทล์ที่ 41

ได้มุมมองเพิ่มเติมโดยการตรวจสอบการปฏิบัติงานของผู้สอบผ่าน รวมถึงผู้ได้รับใบอนุญาตและผู้ที่รอใบอนุญาต ในการนี้ GPT-4ประสิทธิภาพโดยรวมของอยู่ในอันดับที่ 48 เปอร์เซ็นไทล์ โดยเรียงความแย่ยิ่งกว่านั้นที่ 15 เปอร์เซ็นไทล์

แม้ว่าการค้นพบนี้จะน่าหนักใจ แต่การพิจารณาถึงความเป็นไปได้ที่จะเกิดข้อผิดพลาดของมนุษย์ในกระบวนการตรวจสอบก็เป็นสิ่งสำคัญ ผู้เขียนบทความเน้นย้ำถึงความสำคัญของการทำความเข้าใจกลุ่มตัวอย่างที่ผู้วิจัยใช้ในการประเมิน GPT-4ประสิทธิภาพของ การขาดข้อมูลที่เป็นทางการ โดยเฉพาะอย่างยิ่งในรูปแบบรวม ทำให้การเปรียบเทียบและการประเมินเปอร์เซ็นไทล์อย่างยุติธรรมเป็นเรื่องยาก การสร้างเทคนิคการประเมินที่ชัดเจนและเข้าถึงได้ซึ่งสามารถประเมินได้โดยผู้มีส่วนได้ส่วนเสียทั้งหมดถือเป็นสิ่งสำคัญ

เพื่อตอบสนองต่อข้อกังวลเหล่านี้ OpenAI ได้รับการกระตุ้นให้แก้ไขข้อขัดแย้งและ ให้ข้อมูลเชิงลึกเพิ่มเติม เข้าสู่กระบวนการประเมินผล ความโปร่งใสและการเปิดกว้างเป็นสิ่งสำคัญสำหรับการได้รับความไว้วางใจและรับประกันความน่าเชื่อถือของโมเดล AI ในโดเมนที่มีเดิมพันสูง เช่น กฎหมาย

ควรสังเกตว่าบทความนี้ไม่ได้กล่าวถึงคะแนนเฉพาะที่ได้รับ GPT-4ซึ่งมีรายงานว่าเป็น 298 การประเมินความสำคัญของคะแนนนี้จำเป็นต้องมีความเข้าใจบริบทของระบบการให้เกรดที่ใช้ เช่นเดียวกับที่เด็กกลับมาจากโรงเรียนพร้อมกับตัว B อาจเป็นสาเหตุของการเฉลิมฉลองหรือความผิดหวัง การตีความของ GPT-4คะแนนขึ้นอยู่กับขนาดงาน

การประเมินผลของ GPT-4ของการสอบเนติบัณฑิต ทำให้เกิดความกังวลอย่างมาก เกี่ยวกับความจริงของ OpenAIการยืนยันเบื้องต้นของ ช่องว่างระหว่างประสิทธิภาพโดยประมาณและประสิทธิภาพจริงเน้นถึงความสำคัญของระบบการประเมินที่ชัดเจนและข้อมูลที่เข้าถึงได้ง่าย OpenAI ได้รับการสนับสนุนให้จัดการกับความท้าทายเหล่านี้และพัฒนาการมีส่วนร่วมและครอบคลุมมากขึ้น วิธีการที่เชื่อถือได้สำหรับ AI การประเมินแบบจำลอง

อ่านเพิ่มเติมเกี่ยวกับ AI:

ข้อจำกัดความรับผิดชอบ

สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า

เกี่ยวกับผู้เขียน

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

บทความอื่น ๆ
ดาเมียร์ ยาลอฟ
ดาเมียร์ ยาลอฟ

Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต 

Hot Stories
เข้าร่วมจดหมายข่าวของเรา
ข่าวล่าสุด

วันพิพากษามาถึง: ชะตากรรมของ CZ แขวนอยู่ในสมดุลขณะที่ศาลสหรัฐฯ พิจารณาคำร้องของ DOJ

ฉางเผิง จ้าว เตรียมเผชิญโทษจำคุกในศาลสหรัฐฯ ในเมืองซีแอตเทิลวันนี้

รู้เพิ่มเติม

ผู้ก่อตั้ง Samourai Wallet ถูกกล่าวหาว่าอำนวยความสะดวกมูลค่า 2 พันล้านดอลลาร์ในข้อเสนอ Darknet

การจับกุมผู้ก่อตั้ง Samourai Wallet แสดงให้เห็นถึงความพ่ายแพ้ที่โดดเด่นของอุตสาหกรรม โดยเน้นย้ำถึงความต่อเนื่อง ...

รู้เพิ่มเติม
เข้าร่วมชุมชนเทคโนโลยีที่เป็นนวัตกรรมของเรา
อ่านเพิ่มเติม
อ่านเพิ่มเติม
Chainlink และ Rapid Addition ร่วมมือกันพัฒนาอะแดปเตอร์บล็อกเชนที่ใช้ CCIP
บัญชีธุรกิจ รายงานข่าว เทคโนโลยี
Chainlink และ Rapid Addition ร่วมมือกันพัฒนาอะแดปเตอร์บล็อกเชนที่ใช้ CCIP
May 1, 2024
BitSmiley เปิดตัว Alphanet V1 เปิดตัวบน Bitlayer เครือข่าย Bitcoin Layer 2
รายงานข่าว เทคโนโลยี
BitSmiley เปิดตัว Alphanet V1 เปิดตัวบน Bitlayer เครือข่าย Bitcoin Layer 2
May 1, 2024
เมษายน 2024 พบการแฮ็กและการหลอกลวงที่ต่ำเป็นประวัติการณ์ CertiK รายงานลดลง 141% จากเดือนมีนาคม
ตลาด Security Wiki เรื่องราวและบทวิจารณ์ เทคโนโลยี
เมษายน 2024 พบการแฮ็กและการหลอกลวงที่ต่ำเป็นประวัติการณ์ CertiK รายงานลดลง 141% จากเดือนมีนาคม
May 1, 2024
ราคา Bitcoin ลดลงก่อนการประกาศการตัดสินใจอัตราดอกเบี้ยของธนาคารกลางสหรัฐ นักวิเคราะห์เตือนถึงการเปลี่ยนแปลงของตลาดที่อาจเกิดขึ้น
ตลาด รายงานข่าว เทคโนโลยี
ราคา Bitcoin ลดลงก่อนการประกาศการตัดสินใจอัตราดอกเบี้ยของธนาคารกลางสหรัฐ นักวิเคราะห์เตือนถึงการเปลี่ยนแปลงของตลาดที่อาจเกิดขึ้น
May 1, 2024
CRYPTOMERIA LABS PTE. บจก.