การศึกษาของ Stanford ยืนยัน GPT-4 กำลังเริ่มโง่เขลา
ในบทสรุป
การศึกษาโดย Matei Zaharia และทีมงานของเขาจาก Stanford และ UC Berkeley เปรียบเทียบประสิทธิภาพของ GPT-4 และ ChatGPT เพื่อแก้ไขความกังวลของผู้ใช้เกี่ยวกับประสิทธิภาพของโมเดล
การศึกษาประเมินแบบจำลองในงานเฉพาะสี่อย่าง ได้แก่ คณิตศาสตร์ การเข้ารหัส ความไว และการให้เหตุผลด้วยภาพ
Matei Zaharia และทีมงานของเขาจาก Stanford และ UC Berkeley ดำเนินการศึกษา ที่เปรียบเทียบประสิทธิภาพของ GPT-4 ไปยัง ChatGPT. การตรวจสอบนี้พยายามแก้ไขข้อกังวลของผู้ใช้ว่าประสิทธิภาพของโมเดลลดน้อยลง
ที่เกี่ยวข้อง: GPT-4 เมื่อเทียบกับ GPT-3: รุ่นใหม่มีอะไรให้บ้าง? |
นักวิจัยได้ออกแบบการศึกษาเพื่อประเมินแบบจำลองในงานเฉพาะสี่อย่าง งานเหล่านี้รวมถึง:
- คณิตศาสตร์: ความสามารถของแบบจำลองในการระบุว่าจำนวนที่กำหนดเป็นจำนวนเฉพาะหรือจำนวนประกอบ
- การเข้ารหัส: การประเมินความสามารถของแบบจำลองเพื่อสร้างรหัสที่มีความหมายและใช้งานได้
- ความอ่อนไหว: วิเคราะห์คำตอบของแบบจำลองต่อคำถามที่อาจมีเนื้อหาที่ "เป็นพิษ"
- การให้เหตุผลทางภาพ: ทดสอบความถนัดของแบบจำลองสำหรับการแก้ปัญหาที่เกี่ยวข้องกับรูปแบบการมองเห็น โดยใช้เกณฑ์มาตรฐาน ARC ผู้เข้าร่วมต้องระบุรูปแบบในชุดภาพและนำไปใช้แก้ปัญหาตัวอย่างใหม่
ในสาขาคณิตศาสตร์ทั้ง GPT-4 เวอร์ชันที่ออกในเดือนมีนาคมและมิถุนายน แสดงให้เห็นความแม่นยำสม่ำเสมอในการกำหนดจำนวนเฉพาะและจำนวนประกอบ แบบจำลองเหล่านี้แสดงให้เห็นถึงความเชี่ยวชาญในการจัดการกับการคำนวณเหล่านี้ โดยให้ผลลัพธ์ที่เชื่อถือได้
ก้าวไปสู่การเขียนโค้ด GPT-4 แสดงความสามารถที่ได้รับการปรับปรุงในการสร้างโค้ดที่มีความหมายและใช้งานได้เมื่อเปรียบเทียบกับรุ่นก่อน ความสามารถในการสร้างโค้ดของโมเดลแสดงให้เห็นโอกาสที่ดี โดยนำเสนอประโยชน์ที่เป็นไปได้สำหรับนักพัฒนาและโปรแกรมเมอร์
ในส่วนของความอ่อนไหว การศึกษาได้ประเมินการตอบคำถามของแบบจำลองที่มีเนื้อหาที่อาจเป็นอันตรายหรือไม่เหมาะสม GPT-4 แสดงให้เห็นถึงการวิเคราะห์ความไวที่ได้รับการปรับปรุงและแสดงความสามารถที่ได้รับการปรับปรุงเพื่อให้การตอบสนองที่เหมาะสมในบริบทดังกล่าว สิ่งนี้แสดงถึงก้าวเชิงบวกในการจัดการกับข้อกังวลของผู้ใช้เกี่ยวกับผลลัพธ์ที่อาจเป็นปัญหา
สุดท้าย งานการให้เหตุผลด้วยภาพตามเกณฑ์มาตรฐาน ARC ก็เสร็จสมบูรณ์โดยทั้งคู่ GPT-4 รุ่นต่างๆ แบบจำลองระบุรูปแบบภายในชุดรูปภาพได้อย่างมีประสิทธิภาพ และแสดงให้เห็นถึงความสามารถในการใช้รูปแบบเหล่านี้เพื่อแก้ไขตัวอย่างใหม่ๆ สิ่งนี้แสดงให้เห็นถึงความสามารถในการทำความเข้าใจและการใช้เหตุผลด้วยภาพ
ChatGPT แสดงให้เห็นถึงการเติบโตอย่างมากในตัวชี้วัดประสิทธิภาพภายในเดือนมิถุนายน โดยแสดงให้เห็นการปรับปรุงที่โดดเด่นกว่าสิบเท่า แม้ว่าการศึกษาจะไม่ได้เจาะลึกถึงปัจจัยเฉพาะที่เอื้อต่อการเพิ่มประสิทธิภาพนี้ แต่ก็เน้นย้ำอยู่ ChatGPTความก้าวหน้าในด้านการใช้เหตุผลทางคณิตศาสตร์และความสามารถในการแก้ปัญหา
ที่เกี่ยวข้อง: โปรแกรมปรับปรุงภาพ AI ที่ดีที่สุด 10+ รายการในปี 2023 |
คุณภาพของ GPT-4 และ ChatGPT ถูกตั้งคำถามหลังจากการวิเคราะห์ความสามารถในการโปรแกรมของพวกเขา อย่างไรก็ตาม เมื่อพิจารณาให้ละเอียดยิ่งขึ้นจะเผยให้เห็นถึงความแตกต่างอันน่าทึ่งซึ่งขัดแย้งกับความรู้สึกแรกพบ
ผู้เขียนไม่ได้ดำเนินการหรือตรวจสอบรหัสเพื่อความถูกต้อง การประเมินของพวกเขาขึ้นอยู่กับความถูกต้องของรหัส Python เท่านั้น นอกจากนี้ โมเดลดูเหมือนจะได้เรียนรู้เทคนิคการสร้างโค้ดเฉพาะโดยใช้มัณฑนากร ซึ่งขัดขวางการทำงานของโค้ดโดยไม่ได้ตั้งใจ
เป็นผลให้เห็นได้ชัดว่าทั้งผลลัพธ์และการทดลองไม่สามารถพิจารณาว่าเป็นหลักฐานของการเสื่อมสภาพของแบบจำลอง แบบจำลองจะแสดงให้เห็นถึงแนวทางที่แตกต่างกันในการสร้างการตอบสนอง ซึ่งอาจสะท้อนถึงรูปแบบต่างๆ ในการฝึกอบรมของพวกเขา
เมื่อพูดถึงงานด้านการเขียนโปรแกรม ทั้งสองรุ่นแสดงการตอบสนองต่อข้อความแจ้งที่ "ผิด" ลดลงด้วย GPT-4 แสดงให้เห็นการลดลงมากกว่าสี่เท่าในกรณีเช่นนี้ นอกจากนี้ ในงานการใช้เหตุผลเชิงภาพ คุณภาพของการตอบสนองได้รับการปรับปรุงขึ้นสองสามเปอร์เซ็นต์สำหรับทั้งสองรุ่น ข้อสังเกตเหล่านี้บ่งชี้ถึงความก้าวหน้ามากกว่าการลดประสิทธิภาพลง
อย่างไรก็ตาม การประเมินทักษะทางคณิตศาสตร์ได้นำเสนอองค์ประกอบที่น่าสนใจ แบบจำลองให้ตัวเลขเฉพาะเป็นคำตอบอย่างสม่ำเสมอ ซึ่งบ่งชี้คำตอบว่า "ใช่" ที่สอดคล้องกัน อย่างไรก็ตาม เมื่อแนะนำจำนวนผสมให้กับตัวอย่าง ปรากฏว่าแบบจำลองเปลี่ยนพฤติกรรมและเริ่มให้คำตอบว่า "ไม่" ซึ่งบ่งบอกถึงความไม่แน่นอนมากกว่าคุณภาพที่ลดลง การทดสอบนั้นมีลักษณะเฉพาะและมีด้านเดียวและผลลัพธ์สามารถเกิดจากการเปลี่ยนแปลงพฤติกรรมของแบบจำลองมากกว่าการลดลงของคุณภาพ
สิ่งสำคัญคือต้องทราบว่าเวอร์ชัน API ได้รับการทดสอบ ไม่ใช่เวอร์ชันที่ใช้เบราว์เซอร์ แม้ว่าโมเดลในเบราว์เซอร์จะได้รับการปรับเปลี่ยนเพื่อเพิ่มประสิทธิภาพทรัพยากร แต่การศึกษาที่แนบมากลับไม่ได้เป็นเช่นนั้น defiพิสูจน์สมมติฐานนี้โดยสมบูรณ์ ผลกระทบของการเปลี่ยนแปลงดังกล่าวสามารถเทียบเคียงได้กับการลดระดับโมเดลจริง ซึ่งนำไปสู่ความท้าทายที่อาจเกิดขึ้นสำหรับผู้ใช้ที่ต้องพึ่งพาการทำงานเฉพาะด้าน แจ้ง และสั่งสมประสบการณ์
ในกรณีที่ GPT-4 แอปพลิเคชัน API การเบี่ยงเบนพฤติกรรมเหล่านี้สามารถส่งผลที่ตามมาที่จับต้องได้ รหัสที่พัฒนาขึ้นตามความต้องการและงานของผู้ใช้เฉพาะอาจไม่ทำงานตามที่ตั้งใจไว้อีกต่อไปหากโมเดลมีการเปลี่ยนแปลงพฤติกรรม
ขอแนะนำให้ผู้ใช้รวมแนวปฏิบัติการทดสอบที่คล้ายกันไว้ในเวิร์กโฟลว์ของตน ด้วยการสร้างชุดข้อความแจ้ง ข้อความประกอบ และผลลัพธ์ที่คาดหวัง ผู้ใช้สามารถตรวจสอบความสอดคล้องระหว่างความคาดหวังของตนกับการตอบสนองของแบบจำลองได้อย่างสม่ำเสมอ ทันทีที่ตรวจพบการเบี่ยงเบนใด ๆ จะสามารถใช้มาตรการที่เหมาะสมเพื่อแก้ไขสถานการณ์ได้
อ่านเพิ่มเติมเกี่ยวกับ AI:
ข้อจำกัดความรับผิดชอบ
สอดคล้องกับ แนวทางโครงการที่เชื่อถือได้โปรดทราบว่าข้อมูลที่ให้ไว้ในหน้านี้ไม่ได้มีจุดมุ่งหมายและไม่ควรตีความว่าเป็นคำแนะนำทางกฎหมาย ภาษี การลงทุน การเงิน หรือรูปแบบอื่นใด สิ่งสำคัญคือต้องลงทุนเฉพาะในสิ่งที่คุณสามารถที่จะสูญเสียได้ และขอคำแนะนำทางการเงินที่เป็นอิสระหากคุณมีข้อสงสัยใดๆ สำหรับข้อมูลเพิ่มเติม เราขอแนะนำให้อ้างอิงข้อกำหนดและเงื่อนไขตลอดจนหน้าช่วยเหลือและสนับสนุนที่ผู้ออกหรือผู้ลงโฆษณาให้ไว้ MetaversePost มุ่งมั่นที่จะรายงานที่ถูกต้องและเป็นกลาง แต่สภาวะตลาดอาจมีการเปลี่ยนแปลงได้โดยไม่ต้องแจ้งให้ทราบล่วงหน้า
เกี่ยวกับผู้เขียน
Damir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต
บทความอื่น ๆDamir เป็นหัวหน้าทีม ผู้จัดการผลิตภัณฑ์ และบรรณาธิการที่ Metaverse Postซึ่งครอบคลุมหัวข้อต่างๆ เช่น AI/ML, AGI, LLMs, Metaverse และ Web3- สาขาที่เกี่ยวข้อง บทความของเขาดึงดูดผู้ชมจำนวนมากกว่าล้านคนทุกเดือน ดูเหมือนว่าเขาจะเป็นผู้เชี่ยวชาญที่มีประสบการณ์ 10 ปีในด้าน SEO และการตลาดดิจิทัล Damir ได้รับการกล่าวถึงใน Mashable, Wired, Cointelegraph, The New Yorker, Inside.com, Entrepreneur, BeInCrypto และสิ่งพิมพ์อื่น ๆ เขาเดินทางไปมาระหว่างสหรัฐอาหรับเอมิเรตส์ ตุรกี รัสเซีย และ CIS ในฐานะคนเร่ร่อนทางดิจิทัล Damir สำเร็จการศึกษาระดับปริญญาตรีสาขาฟิสิกส์ ซึ่งเขาเชื่อว่าทำให้เขามีทักษะการคิดเชิงวิพากษ์ที่จำเป็นต่อการประสบความสำเร็จในภูมิทัศน์ที่เปลี่ยนแปลงตลอดเวลาของอินเทอร์เน็ต